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出版说明 


由香港科技大学社会科学部吴晓刚教授主编的“格致方 
法 • 定量研究系列”丛书，精选了世界著名的 SAGE 出版社 
定量社会科学研究丛书中的35种，翻译成中文，集结成八 
册，于2011年出版。这八册书分 别是： 《线性回归分析基 
础》、《高级回归分析》、《广义线性模型》、《纵贯数据分析》、 
《因果关系模型》、《社会科学中的数理基础及应用》、《数据分 
析方法五种》和《列表数据分析》。这套丛书自出版以来，受 
到广大读者特别是年轻一代社会科学工作者的欢迎，他们针 
对丛书的内容和翻译都提出了很多中肯的建议。我们对此 
表示衷心的感谢。 

基于读者的热烈反馈，同时也为了向广大读者提供更多 
的方便和选择，我们将该丛书以单行本的形式再次岀版发行。 
在此过程中，主编和译者对已出版的书做了必要的修订和校 
正，还新增加了两个品种。此外，曾东林、许多多、范新光、李 
忠路协助主编参加了校订。今后我们将继续与 SAGE 出版社 
合作，陆续推出新的品种。我们希望本丛书单行本的岀版能 
为推动国内社会科学定量研究的教学和研究作出一点贡献。 



总序 




往事如烟，光阴如梭。转眼间，岀国已然十年有余。 
1996年赴美留学，最初选择的主攻方向是比较历史社会学， 
研究的兴趣是中国的制度变迁问题。以我以前在国内所受 
的学术训练，基本是看不上定量研究的。一方面，我们倾向 
于研究大问题，不喜欢纠缠于细枝末节。国内一位老师的 
话给我的印象很深，大致是说 ：如果 你看到一堵墙就要倒 
了，还用得着纠缠于那堵墙的倾斜角度究竟是几度吗？所 
以，很多研究都是大而化之，只要说得通即可。另一方面， 
国内（十年前）的统计教学，总的来说与社会研究中的实际 
问题是相脱节的。结果是，很多原先对定量研究感兴趣的 
学生在学完统计之后，依旧无从下手，逐渐失去了对定量研 
究的兴趣。 

我所就读的美国加州大学洛杉矶分校社会学系，在定量 
研究方面有着系统的博士训练课程。不论研究兴趣是定量 
还是定性的，所有的研究生第一年的头两个学期必须修两门 
中级统计课，最后一个学期的系列课程则是简单介绍线性回 
归以外的其他统计方法，是选修课。希望进一步学习定量研 
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究方法的可以在第二年修读另外一个三学期的系列课程，其 
中头两门课叫“调查数据分析”，第三门叫“研究设计”。除此 
以外，还有如“定类数据分析”、“人口学方法与技术”、“事件 
史分析”、“多层线性模型”等专门课程供学生选修。该学校 
的统计系、心理系、教育系、经济系也有一批蜚声国际的学 
者，提供不同的、更加专业化的课程供学生选修。2001年完 
成博士学业之后，我又受安德鲁 • 梅隆基金会资助，在世界 
定量社会科学研究的重镇密歇根大学从事两年的博士后研 
究，其间旁听谢宇教授为博士生讲授的统计课程，并参与该 
校社会研究院 (Institute for Social Research ) 定量社会研究方 

法项目的一些讨论会，受益良多。 

2003年，我赴港工作，在香港科技大学社会科学部，教授 
研究生的两门核心定量方法课程。香港科技大学社会科学 
部自创建以来，非常重视社会科学研究方法论的训练。我开 
设的第一门课“社会科学里的统计学 ” （Statistics for Social 
Science ) 为所有研究型硕士生和博士生的必修课，而第二门 
课“社会科学中的定量分析”为博士生的必修课（事实上，大 
部分硕士生在修完第一门课后都会继续选修第二门课）。我 
在讲授这两门课的时候，根据社会科学研究生的数理基础比 
较薄弱的特点，尽量避免复杂的数学公式推导，而用具体的 
例子，结合语言和图形，帮助学生理解统计的基本概念和模 
型。课程的重点放在如何应用定量分析模型研究社会实际 
问题上，即社会研究者主要为定量统计方法的“消费者”而非 
“生产者”。作为“消费者”，学完这些课程后，我们一方面能 
够读懂、欣赏和评价别人在同行评议的刊物上发表的定量研 
究的 文章; 另一方面，也能在自己的研究中运用这些成熟的 



方法论技术。 

上述两门课的内容，尽管在线性回归模型的内容上有 
少量重复，但各有侧重。“社会科学里的统计学 ” （Statistics 
for Social Science ) 从介绍最基本的社会研究方法论和统计 
学原理开始，到多元线性回归模型结束，内容涵盖了描述性 
统计的基本方法、统计推论的原理、假设检验、列联表分析、 
方差和协方差分析、简单线性回归模型、多元线性回归模 
型，以及线性回归模型的假设和模型诊断。“社会科学中 
的定量分析”则介绍在经典线性回归模型的假设不成立的 
情况下的一些模型和方法，将重点放在因变量为定类数据 
的分析模型上，包括两分类的 logistic 回归模型、多分类 lo ¬ 
gistic 回归模型、定序 logistic 回归模型、条件 logistic 回归模 
型、多维列联表的对数线性和对数乘积模型、有关删节数据 
的模型、纵贯数据的分析模型，包括追踪研究和事件史的分 
析方法。这些模型在社会科学研究中有着更加广泛的 
应用。 

修读过这些课程的香港科技大学的研究生 ，一 直鼓励 
和支持我将两门课的讲稿结集岀版，并帮助我将原来的英 
文课程讲稿译成了中文。但是，由于种种原因，这两本书拖 
了四年多还没有完成。世界著名的出版社 SAGE 的“定量 
社会科学研究”丛书闻名遐迩，每本书都写得通俗易懂。中 
山大学马骏教授向格致岀版社何元龙社长推荐了这套书， 
当格致出版社向我提岀从这套丛书中精选一批翻译，以飨 
中文读者时，我非常支持这个想法，因为这从某种程度上弥 
补了我的教科书未能岀版的遗憾。 

翻译是一件吃力不讨好的事。不但要有对中英文两种 
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语言的精准把握能力，还要有对实质内容有较深的理解能 
力，而这套丛书涵盖的又恰恰是社会科学中技术性非常强 
的内容，只有语言能力是远远不能胜任的。在短短的一年 
时间里，我们组织了来自中国内地及港台地区的二十几位 
研究生参与了这项工程，他们目前大部分是香港科技大学 
的硕士和博士研究生，受过严格的社会科学统计方法的训 
练，也有来自美国等地对定量研究感兴趣的博士研究生。 
他们是： 

香港科技大学社会科学部博士研究生蒋勤、李骏、盛智 
明、叶华、张卓妮、郑冰岛，硕士研究生贺光烨、李兰、林毓玲、 
肖东亮、辛济云、於嘉、余珊珊，应用社会经济研究中心研究 
员李俊秀;香港大学教育学院博士研究生洪 岩璧; 北京大学 
社会学系博士研究生李丁、赵 亮员； 中国人民大学人口学系 
讲师巫锡炜；中国台湾“中央”研究院社会学所助理研究员林 
宗弘;南京师范大学心理学系副教授 陈陈; 美国北卡罗来纳 
大学教堂山分校社会学系博士候选人姜念涛;美国加州大学 
洛杉矶分校社会学系博士研究生宋曦。 

关于每一位译者的学术背景，书中相关部分都有简单 
的介绍。尽管每本书因本身内容和译者的行文风格有所差 
异，校对也未免挂一漏万，术语的标准译法方面还有很大的 
改进空间，但所有的参与者都做了最大的努力，在繁忙的学 
习和研究之余，在不到一年的时间内，完成了三十五本书、 
超过百万字的翻译任务。李骏、叶华、张卓妮、贺光烨、宋 
曦、於嘉、郑冰岛和林宗弘除了承担自己的翻译任务之外， 
还在初稿校对方面付岀了大量的劳动。香港科技大学霍英 
东南沙研究院的工作人员曾东林，协助我通读了全稿，在此 



我也致以诚挚的谢意。有些作者，如香港科技大学黄善国 
教授、美国约翰 • 霍普金斯大学郝令昕教授，也参与了审校 
工作。 

我们希望本丛书的岀版，能为建设国内社会科学定量研 
究的扎实学风作岀一点贡献。 


吴晓刚 

于香港九龙清水湾 
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在经验社会科学研究中缺失数据的问题很普遍，大多非 
实验性研究所报告的统计结果都立足于较小的样本数，有时 
比初始选择的个案数目还要小。在一些变量上相对多缺失 
观察值会降低有效的 iv 。 假设有个意见调查，多变量分析中 
有效样本只有原来的一半，这种情况在现实中并不少见。假 
设商学院的 Mary Rose 教授在一个消费者态度及行为调查 
中检验一个 N = 1000受访者的概率样本。她使用一般计算 
机选项成列删除(也就是任一受访者有缺失任一模型变量即 
被排除），对支出估计一个合理设定的多元回归模型。结果 
实际可得的个案降至 N =499。 这就产生了严重的问题。这 
499个受访者是否仍“代表”了总体？要拒绝零假设，样本是 
否太小？为了保持样本数，是否应该尝试成对删除？抑或， 
有其他新的方法值得考虑？这些问题及其他问题都在保 
罗 • 阿利森这本杰出的专题著作中讨论到。 

“观察值是随机缺失的”，这是根据留下的个案以面对处 
理数据缺失时的通常论点。但这个假设是隐含的。假若观 
察值“完全随机缺失”，这表示没有任何变量，不论是因变 
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量 m 或自变量 （ x )， 其缺失分数都不与该变量自身的值相 
关。例如，上述的支出变量，对于支出多者其未回答率应不 
比支出少者的未回答率高。对于其他模型变量，假设在相同 
的条件下，则499个次样本将可代表一次科学的抽取，允许 
有效的推论。而且，它允许回归估计值是不偏及一致的。无 
问题派的研究者可能喜欢这种完全随机缺失的 （Missing 
Completely at Random , MCAR ) 随机性，但这需要有很强的 
假设来支持。 

较为实际一点的假设为观察值是“随机缺失的” （Missing 
at Random, MAR )。 假设在控制了其他变量后，如果 Y 的值 
不能预设缺失分数的位置，则 Y 变量缺失数据为随机的。所 
以在上述的举例中，职业地位（ X) 可能与支出的缺失数据相 
关，高地位的受访者更可能低报支出。一旦 X 在右手边，那 
么 Y 的观察值将会是随机的。在 MAR 情况下，如阿利森所 
言，缺失数据产生机制是可忽略的。虽然他也论及不可忽略 
的缺失数据机制的困难细节，但他这本专题著作着重于在 
MAR 条件下，以改良估计处理的方法。 

如果数据是 MAR ， 则估计的质量很大程度地取决于系 
统性误差的位置。令人鼓舞的是，当相关缺失数据仅限于自 
变量时，则成列删除仍能产生不偏的估计值。例如，在例子 
中，职业地位 X 缺失数据可能与另一个自变量年龄 （ Z ) 相 
关; 例 如:没 有报告年龄的可能年纪较大且地位较高。在年 
龄较大与报告支岀没有相关的条件下，则没有误差。事实 
上，正如阿利森巧妙论证的，在一些 MAR 情况下，标准成列 
删除选项比传统缺失数据修正方法（成对删除，虚拟变量调 
整或平均值替换)表现更好。 



处理缺失数据问题的新策略占用了本专题论著的大部 
分篇幅。在缺失数据的条件下回顾最大似然估计，即 ML 估 
计，他以一个仔细筛选的美国大专院校毕业率的数据为例， 
解释了插补法的 EM 算法。后几章超越了 ML 方法，解释多 
重插补方法，并讨论了不可忽略的缺失数据。这本书是最新 
的处理缺失数据的精心杰作，几乎所有的统计书籍都很少涉 
及这个主题。保罗 • 阿利森也睿智地提醒我们，缺失数据最 
佳的解决方法是“没有任何最佳解决方法”。但如果你也有 
这个问题且在寻求补救方法，那么就请阅读本书的内容。 


迈克尔 • 刘易斯-贝克 
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缺失数据 


任何做统计分析的人早晚都会遇到缺失数据的问题。 
在一个典型的数据组中，对于某些个案的信息是缺失的。例 
如，在要求个人报告其收人的调查中，通常很大比例的受访 
者会拒绝回答。彻底拒绝只是造成缺失数据的一个原因。 
而在自己填写的调查中，人们通常会漏看或忘记回答一些问 
题。即使是专业的调查员偶尔也会忽略某些问题。有时候 
受访者说他们只是不知道如何回答或者是没有可用的信息， 
而有时候某些问题对于一些受访者是不适用的，如让未婚者 
评价他们的婚姻质量。在长期的研究中，这一波被访问的人 
在下一波调查前可能会死亡或搬走。当数据从多个行政记 
录中收集得来时，有些记录可能也会不慎缺失。 

因为有这些和其他许多的原因，导致缺失数据在社会和 
健康科学两者中，成为了一个普遍存在的问题。为什么它会 
是个问题呢？因为几乎所有标准统计方法都假设每个个案 
具有可用于分析中的所有变量的信息。确实，大多数的统计 
教科书没有提到任何有关缺失数据或如何处理缺失数据的 
信息。 

一个众所周知、通常为统计软件默认的、简单的解决方 
式是 :在分 析中当某个案的任何变量具缺失数据时，便简单 






第 1 章导论 
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地将该个案从分析中排除。结果便得到一个没有缺失数据 
的数据组，可以使用任何传统方法分析。这个策略通常被社 
会科学称之为成列删除或个案删除，但有时也会被称为完整 
个案分析。 

除了简单以外，成列删除也有一些吸引人的统计特质， 
这将会在后面讨论。对任何使用过“成列删除”的人而言，它 
也有一个明显的重大 缺点： 在很多运用中，成列删除会排除 
原始样本的一个很大的比例。例如，假使你已收集了一个样 
本为1000人的数据且想要估计一个有20个变量的多元回 
归。每一个变量都有5%的个案具缺失数据，且每一个变量 
数据缺失的机会与任何其他变量信息缺失的机会是独立的。 
那么可预计只有360个个案具完整数据，丢弃了其他640个 
“个案”。如果你仅从某网站上下载数据，你可能就不会感觉 
太糟糕，虽然你也希望能有更多的个案。但如果你已对1000 
人中的每个人都花了 200美元进行访问，就可能会非常懊 
悔，因为大概有13万美元浪费了（至少对于这个分析是如 
此）。但在实际操作中，确实有方法可以从这640个不完整 
的个案中抢救回某些东西，因为在这640个不完整的个案 
中，许多个案可能只缺少20个变量中的其中一个信息。 

许多备选方法被提出来，且其中数个“方法”将在本书中 
被重新讨论。但遗憾的是，这些方法大多没有价值，且很多 
未必优于成列删除。虽然这些方法背后的理论已经至少有 
十年之久，但却仅在过去数年间才可以在计算机上操作。甚 
至到目前为止，多重插补及最大似然估计仍需要花费大量的 
时间与精力用于学习方法并根据例行程序执行它们。但如 
果你想要把事情做对，你通常要付岀代价。 
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缺失数据 


最大似然和成列删除两者都有我们希望所能达到的好 
的统计特性。然而，必须注意的是，这些方法和其他所有的 
方法一样，其效度基于某些容易被违反的假设。不仅如此， 
而且没有方法可以检验大部分重要的假设是否被满足。虽 
然某些解决缺失数据的方法明显优于其他方法，但却没有一 
个可以被认为确实是好的，也不存在唯一真正解决缺失数据 
的好的方法。所以在设计和执行研究计划时，必须尽力使缺 
失信息的发生最小化。因为统计调整没有办法补救草率的 
研究。 
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研究者通常会试着使那些在某一特别变量上有缺失值 
的个案与其他有观察值的个案变得没有差异。例如他们通 
常会提供证据说明报告和不报告其收入的人们在其他各变 
量上没有显著差异。更普遍地，研究者通常声称或假设他们 
的数据是随机缺失的，却没有完全理解这代表什么意思。统 
计学者过去甚至也曾对此概念感到困惑或模棱两可。然而， 
Rubin (1976) 通过严格定义那些关于缺失数据机制不同的合 
理假设，将这些事物立足于一个坚固的基础上。虽然他的定 
义相当具技术性，但在此我将试着给出一个通俗的理解。 
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第 1 节 I 完全随机缺失的 


假设一个特殊变量 Y 有缺失数据。如果 Y 数据缺失的 
概率与 Y 本身的值或在该数据组中任何其他变量的值都无 
关的话，那么 Y 的数据可以说是完全随机缺失的 （ MCAR )。 
当这个假设满足所有变量，有完整数据的个人组可被视为原 
本观察值组中的一个简单随机次样本。要注意， MCAR 不考 
虑 Y 的“缺失”与其他某个变量 X 的“缺失”相关之概率。例 
如，即使拒绝报告其年龄的人们总是拒绝报告他们的收入， 
但该数据仍然可能是完全随机缺失的。 

如果平均而言不报告其收入的人们比那些报告收入 
者年轻，那么 MCAR 假设会被违反。很容易就可检验这 
个暗示，通过将该样本分为两组——报告收入者和未报告 
收入者，再检验他们的平均年龄的差异。如果实际上有数 
据呈现者和有数据缺失者两者间在所有观察变量上都没 
有系统性的差异，则该数据可以算是随机观察的。另一方 
面，仅由数据通过这个检验并不能说明 MCAR 假设被满 
足了，还必须保证某一特殊变量上的缺失与该变量的值没 
有关系。 

虽然 MCAR 是一个相当强的假设，但有时候它也是合 
理的，特别是当数据缺失是研究设计的一部分时。当某个特 
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殊变量测量起来太过昂贵时，这样的设计通常很吸引人。相 
应的策略便是只针对较大样本中的某个随机次集合，测量这 
个昂贵的变量，这也意味着对剩余的样本而言，该数据是完 
全随机缺失的。 
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第2节 I 随机缺失的 


一 个合理性较弱的假设为数据是随机缺失的 （ mar )。 
如果在分析中控制了其他变量后， Y 缺失数据的概率与 Y 值 
无关，则称 Y 的数据为随机缺失的。为更正式地表达，假设 
只有两个变量 Y 和 X ， X 总是被观察到但 Y 有时会缺失。 
那么 MAR 指： 

Pr(Y missing | Y, X ) = Pr(Y missing | X ) 

用文字表示，这个表达式意味着，在同时给定 Y 和 X 时， Y 缺 
失数据的条件式概率，等于在只单独给定 X 的条件下 Y 缺失 
数据的概率。例如，如果收人缺失数据的概率取决于婚姻状 
态，但在每一个婚姻状态类别中，缺失收入的概率与收入无 
关。一般而言，在控制了其他观察变量后，如果有数据缺失 
的那些个人相对于那些有数据呈现者，那么对于该变量倾向 
于较低(或较高）的值，数据不会是随机缺失的。 

检验 MAR 条件是否被满足是不可能的，但在直觉上理 
由应该是很充分的。因为我们不知道缺失数据的值，所以我 
们无法比较有缺失值者和没有缺失值者，进而看它们是否在 
该变量上有系统性的差异。 
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第3节 | 可忽略的 


如果 (a) 数据为 MAR， 且 （b) 管制缺失数据过程的参数 
与要估计的参数无关，则缺失数据的机制是可忽略的 （ignor- 
able)。 可忽略性基本上指不需要将缺失数据机制模型化为 
估计过程中的一部分。然而，确实需要使用特别技术以有效 
地利用数据，因为在实际运用中难以想象条件 （b) 不被满足 
的情况，因此作者在本书中将 MAR 和可忽略性视为相等的 
条件。甚至在极少数条件 （b) 不被满足的情况下，假设可忽 
略性的方法仍然运作的一样好，但你可以通过将缺失数据机 
制模型化从而做得更好。 
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第4节 | 不可忽略的 



如果数据不是 MAR ， 我们则说缺失数据机制是不可忽 
略的 ( nonignorable ) 。在这个例子中，通常缺失数据机制必须 
被模型化从而得到所关注参数的好的估计值。关于不可忽 
略缺失数据的一个广泛使用的方法为 Heckman (1976) 因变 
量有选择偏差的两阶段估计回归模型。遗憾的是，对于不可 
忽略缺失数据的有效估计，需要非常好的关于缺失数据过程 
本质的基础知识，因为数据没有包含信息告知什么模型是适 
当的，而且结果会对模型的选择尤其敏感。因为这些原因且 
因为不可忽略缺失数据的模型要求对每个运用必须相当专 
业化，因此本书将重点放在可忽略的缺失数据上。在第7 
章，作者简要地分析了一些处理不可忽略的缺失数据的方 
法。在第3章，我们将会看到成列删除有一些非常吸引人的 
特性，关于某些类型的不可忽略缺失数据这些特性也会非常 
明显。 
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缺失数据 


虽然有许多不同的方法被提议用来处理缺失数据，但其 
中只有一部分得到了广泛好评。但这些被广泛使用的方法 
中没有任何一个明显优于成列删除。在这部分，我从最简单 
的方法幵始，简短地回顾一些方法。在评估这些方法时，我 
将特别关注他们在回归分析中的表现(包含 logistic 回归及 
Cox 回归），许多评论也适用于其他类型的分析。 



第 3 章传统的方法 


第1节 I 成列删除 


如前所述，成列删除通过从样本中删除所关注模型中的 
在任何变量上有缺失值的观察值，并通过运用传统分析完整 
数据组的方法来实现。成列删除有两个明显的优点：（1)它 
可以用于任何类型的统计分析，包括从结构方程模型到对数 
线性分析； （2) 并不需要特别的运算方法。根据缺失数据机 
制，成列删除有一些吸引人的统计特性。确切地说，如果数 
据为 MCAR ， 则减少的样本将会是原样本的一个随机次样 
本。这意味着，对于所关注的任何参数，如果估计值对于完 
整的数据组(没有缺失数据)的估计值是无偏误的，那么对于 
成列删除的数据组也会是无偏误的。此外，由成列删除的数 
据组所获得的标准误及检验统计量也如同它们在完整数据 
组中的一样适当。 

当然，因为所利用的信息较少，标准误在成列删除的数 
据组中通常会比较大。它们也会倾向大于（在本书后面叙述 
的）由最适当的方法所获得的标准误，但至少你不用担心因 
为缺失数据而导致推论错误——这是大多数常用方法的一 
个大问题。 

另一方面，如果数据不是 MCAR ， 而只是 MAR ， 那么成 
列删除可能会产生有偏误的估计值。例如，如果教育缺失数 
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缺失数据 


据的概率取决于职业地位，那么对职业地位进行关于教育的 
回归将会产生一个有偏误的回归系数估计值。因此，一般而 
言，成列删除对于违反 MCAR 假设的情况并不是稳健的。 
但岀乎意料的是，成列删除对在回归分析中的自变量间违反 
MAR 时是最稳健的。更确切地讲，如果任何因变量缺失数据 
的概率不取决于自变量的值，则使用成列删除的回归估计值将 
会是无偏误的(如果所有一般回归模型假设都被满足的话 )。 W 

例如，假设我们想估计一个回归模型以预测年储蓄，其 
中一个自变量为收入，有40%的数据是缺失的。进一步地假 
设收人缺失数据的概率取决于收入和教育年数两者，教育年 
数为模型中另一个自变量。只要缺失收人的概率不取决于 
储蓄，回归估计值将会是无偏误的 ( Little ， 1992)。 

为什么会这样呢？有一个重要的原因。对回归模型的 
自变量做非比例分层化抽样并不会使系数估计值产 S 偏误。 
一个仅与自变量值相关的缺失数据机制在本质上与分层化 
抽样相同，也就是说，个案以基于其他变量值的概率而被选 
择进入样本中。这个结论不只适用于线性回归模型，也适用 
于 logistic 回归、 Cox 回归、泊松回归及其他。 

事实上，对 logistic 回归而言，甚至在更广泛的条件下， 
成列删除都能给予有效的推论。如果任何变量缺失数据的 
概率取决于因变量的值，而不取决于任何其他自变量的值， 
则使用成列删除的 logistic 回归会产生一致的斜率系数估计 
值及其标准误 ( Vach ， 1994)。然而，截距估计值将会是有偏 
误的。只有当任何缺失数据的概率同时取决于因变量和自 
变量两者时，使用成列删除的 logistic 回归才会是有问 
题的。[ 2 ] 
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总而言之，成列删除并不是一个差的处理缺失数据的方 
法。虽然它没有利用所有可得的信息，但至少当数据是 
MCAR 时，它给予了有效的推论。正如我们将看到的，这几 
乎已经比所有其他普遍处理缺失数据的方法好多了。最大 
似然和多元插补方法（于后面几节讨论）在许多情况下可能 
会比成列删除更好，但对于回归分析来说，当违反 MAR 假设 
时，成列删除甚至比这些复杂的方法更加稳健。更明确的 
是，当某个特别的自变量缺失数据的概率取决于该变量（而 
非因变量)时，成列删除可能会比最大似然和多元插补更好。 

对于这些关于回归分析的成列删除的主张有一个重要 
的提示，即对于样本中的所有个案回归系数都被假设是相同 
的。如果回归系数在横跨总体的次集合时发生变化，则该样 
本任何非随机的限制(例如，经过成列删除）都会导致回归系 
数向其中一个或另一个次集合倾斜。当然，如果在回归参数 
中察觉到这样的变化，就应该对不同的次样本做不同的回 
归，或将适当的交互作用包含在模型中 （Winship & Radbill ， 
1994) 0 
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第2节 | 成对删除 



也被称为可得个案分析，成对删除作为一个简单的备选 
方法可用于许多线性模型，包括线性回归、因子分析及更复 
杂的结构方程模型。它是广为人知的，例如，一个线性回归 
可以通过其样本平均数和协方差矩阵，或者通过平均数、标 
准差及相关矩阵进行估计。成对删除的原理是要通过所有 
可得的个案来计算这些描述统计的每一个。例如，计算两个 
变量 X 和 z 之间的协方差，所有同时具备 x 和 z 两者数据 
的个案都会被使用。一旦总和测量值被计算岀来了，它们就 
可用于计算我们所关注的参数，如回归系数。 

如何执行这个原则却显得模棱两可。当计算需要每一 
个变量其平均数的协方差时，只使用这两个变量都有数据的 
个案来计算平均数吗？还是使用所有变量的数据都可得的 
个案呢？因为所有的变异都产生具相同特性的估计量，所以 
毋需考虑诸如此类的问题。一般的结论是，如果数据为 
MCAR ， 成对删除就产生一致的参数估计值(且因此在大样 
本中接近无偏误）。另一方面，如果数据是 MAR ， 但不是随 
机被观察到的，估计值就可能会严重偏误。 

如果数据确实是 MCAR ， 成对删除可能会比成列删除更 
有效，因为更多信息被利用了。所谓更有效，指的是成对删 


第 3 章传统的方法 


除有比成列删除更少的抽样变异（较小的真实标准误）。然 
而，这并不总是正确的。线性回归模型的分析和模拟研究都 
指岀，当变量间的相关性普遍较低时，成对删除会产生更有 
效的估计值，然而，当变量间的相关性较高时，成列删除则更 
好 （ Glasser ， 1964； Haitovsky , 1968； Kim Curry ，1977) 0 

成对删除的一个大问 题是： 由传统软件所产生的标准误 
和检验统计量估计是偏误的。这个问题的症状是，当你输入 
一协方差矩阵于回归程序中时，你还必须指明样本数以计算 
标准误。有些成对删除的程序使用有最多缺失数据的变量 
的个案数目，而有些程序则用个案的最小数目以计算每一个 
协方差。然而，没有一个数目是令人满意的。原则上，有可 
能可以得到标准误的一致估计值，但公式很复杂，且目前在 
任何商业统计软件都无法执行。[ 3 ] 

成对删除第二个偶尔会发生的问题是，在小样本中，建 
构的协方差或相关矩阵可能不是“正定的”，这也暗示着回归 
运算根本无法实行。由于存在这些困难以及其对 MCAR 的 
偏离相对敏感，因此成对删除通常不被建议为成列删除的备 
选方法。 
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第3节 | 虚拟变量调整 


这里还有另一个针对回归分析中缺失预测值的非常简 
单且直觉上很吸引人的方法 （Cohen & Cohen ， 1985)。假设 
某变量 X 有一些缺失数据， X 为回归分析中数个自变量的其 
中一个。我们建立一个虚拟变量 D ， 如果 X 数据缺失等于1， 
如果没有缺失等于0。我们也建立一个变量 X 、使得 

^ _^ X ， 当数据没有缺失时 
X 当数据缺失时 

其中 c 可以是任何常数。我们回归因变量 Y 于 X * 、 D 及其 
他在预设模型中的所有变量。这个技术被称为虚拟变量调 
整或缺失指标方法，该方法可以很容易被延伸至超过一个自 
变量具缺失值的数据中。 

虚拟变量调整方法明显的好处在于它使用了所有可用 
的关于缺失数据的信息。将用 c 值代替缺失数据视为插补 
并不恰当，因为 X * 的系数不会因为 c 值的不同选择而改变。 
而且，此模型唯一一个取决于 c 值的选择的面向为缺失值指 
标 D 的系数。为便于解释 ，一 个简单可选的 c 值是非缺失个 
案的 X 的平均数。这样 D 的系数可以被解释为，在控制了 
模型中的其他变量的情况下， X 具缺失数据的个体其 Y 的预 
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测值减去具 X 平均数的个体其 Y 的预测值。 X * 的系数可 
被视为在有 X 数据的次群体中 X 的效应的估计值。 

遗憾的是，如 Jone S (1996) 所证明的，这个方法通常会产 
生有偏误的系数估计值。 [4] 一个简单的模拟就能说明这个问 
题。从具有三个变量的正态分布中抽样产生1万个个案，这 
三个变量为和 Z 。 回归 Y 于 X 和 Z ， 对于每个自变量， 
其真实的系数为1.0。不岀意外，利用整个具有上万个个案 
的样本而得到的最小二乘回归系数（如表 3. 1第1栏所示) 
相当接近真实值。 


表 3.1 使用三种模型之仿真数据回归 


系数 

完整数据 

成列删除 

虚拟变量调整 

X 

0. 98 

0. 96 

1. 28 

z 

1.01 

1.03 

0.87 

D 



0. 02 


其次，再随机地使 Z 值有1/2的概率缺失。因为缺失数 
据的概率与其他任何变量不相关，所以该数据为 MCAR 。 
表 3. 1第2栏显示成列删除产生的估计值相当接近那些没 
有数据缺失的结果。另一方面，虚拟变量调整方法的系数则 
明显有偏误—— X 系数高而 Z 系数太低。 

另外有一个密切相关的方法被提议用于回归分析中的类 
别自变量。诸如此类的变量可通过建立一组虚拟变量来有代 
表性地处理这个问题，除了参照组外，每一个类别都有一个变 
量。这个方法是简单地建立一个额外的类别及一个额外的虚 
拟变量，以表示在该类别变量中具缺失数据的个体。然而，我 
们还有一个直觉上吸引人但即使当数据为 MCAR 时仍有偏 
误的方法 （ Jones ， 1996； Vach Blettneer , 1991) 0 
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第4节 I 插补 


许多处理缺失数据的方法都归在插补方法的大标题之 
下，其基本原理是要以某些合理的猜测插补或替代缺失值， 
然后再接着按没有缺失数据的情况进行分析。当然，有许多 
不同的插补缺失值的方法。最简单的可能是边际平均数插 
补: 对给定某个变量的每一个缺失值，都用有数据个体的该 
变量的平均数代替。众所周知，这个方法会产生有偏误的方 
差及协方差的估计值 （ Haitovsky ，1968) ，因此通常应该避免 
使用。 

一个比较好的方法是利用多元回归的方法使用其他变 
量的信息，这个方法通常被称为条件式平均数插补。假设我 
们要估计一个有着数个自变量的多元回归模型。其中一个 
自变量 X ，部分个案有缺失数据。对于那些有完整数据的个 
案，我们回归 X 于所有其他自变量上。使用相应的估计方 
程，我们会得到预测值用于具 X 缺失数据的个案。这些值用 
来代替缺失数据，并且可以接着按没有缺失数据的情况进行 
分析。 

当超过一个自变量有缺失数据而且一般主题有许多变 
异时，这个方法就会变得比较复杂。一般而言，如果插补是 
全然根据其他自变量（而非因变量）且数据为 MCAR 时，最 
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小二乘系数是一致的，暗示在大样本中几乎无偏误 ( Courier - 
oux & Monfort , 1981)。然而，它们并不是完全有效的。可 
通过加权最小二乘 （Beale & Little , 1975) 或广义最小二乘 
(Gourieroux Monfort , 1981) 获得改良的估计量。 

遗憾的是，所有这些插补方法都面临一个根本的 问题: 
即按照完整数据的情况分析插补数据会低估标准误、高估检 
验统计量。传统分析分法没有单纯地对这个实际情况（即插 
补过程涉及缺失值的不确定性）进行调整。 [5] 后面几节会介 
绍一个解决这些问题的插补方法。 
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第5节 | 总结 




.v'VV V :"離 




所有从具缺失数据的个案中挽救信息的一般方法都会 
明显地使事情变得更 糟：它 们会引进重大的偏误，使分析对 
MCAR 的偏离更加敏感，并产生不正确的标准误（通常太 
低）。由于存在这些缺点，成列删除因而看起来不算太糟。 
但还有更好的可用的方法。在下一章中，将会介绍可用于许 
多一般模型化目标的最大似然方法。在第5章和第6章，也 
会介绍几乎可用于任何设定的多重插补方法。如果数据是 
MAR ， 那么这两种方法都有不一般的特性。原则上，这些方 
法可用于不可忽略的缺失数据中，但需要一个有关数据缺失 
过程的正确的模型——这通常难以得到。 
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最大似然是统计估计非常普遍的方法，广泛用于处理许 
多困难的估计问题。大多数读者可能熟悉 ml 作为估计 lo ¬ 
gistic 回归模型的偏好方法。 当误差项假设为正态分布时， 
普通最小二乘线性回归也是一个 ML 方法。结果 ML 特别 
有利于处理缺失数据问题。在这一章，我们首先回顾 ML 估 
计值的一些普遍特性。然后，将介绍缺失数据机制为可忽略 
的假设下， ML 估计的基本原则。这些原则会用一个简单的 
列联表来说明。此章其余的部分会给岀更复杂的例子，目的 
是要根据多变量正态分布估计一个线性模型。 
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第1节 | 回顾最大似然估计法 


ml 估计的基本原则是，选取那些若取值是真实的，就可 
最大化观察到事实上已被观察到的概率的值，来作为估计 
值。为了达到这个目的，我们首先需要一个以数据和未知参 
数两者的函数来表达数据的概率的公式。当观察值为独立 
(一般的假设)时，该样本的总体似然(概率)就是所有个别观 
察值的似然的乘积。 

假设我们要估计一个参数^如果 /(y W 为给定某个沒 
值时，观察到 Y 单一值的概率，则一个有 〃个 观察值的样本 
的似然 值为： 

U 6 ) = II f( yi I d ) 

£=1 

其中 II 是重复乘法运算的符号。当然，我们仍需要确切指 

明 /(d W 是什么。例如，假设 Y 是一个二分类变量，编码为 
1或0,且0为1的概率 ，则： 

n 

ud) = 一乂 

1 = 1 

一旦我们有了称为似然函数的 L (0) ，就有许多方法确定尽可 
能使似然值最大化的0值。 

ML 估计量有许多令人满意的特性，已知在相当广泛的 



28 


缺失数据 


条件下，它们是一致的、渐近有效且渐近正态的 （Agresti & 
Finlay , 1997)。一致性意味着估计值在大样本中接近无偏 
误。有效性意味着真实的标准误至少和任何其他相应的估 
计量的标准误一样小。 

渐近部分意指这项陈述只是接近真实的，且样本量越大 
则越接近。最后，渐近正态性意指在重复抽样中，估计值接 
近正态分布（同样，接近程度会随样本数增加而增加）。这说 
明使用一个正态表来建构置信区间或计算 P 值是恰当的。 
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第2节 I 有缺失数据的 ML _ 


当某些观察值具缺失数据时怎么办？当缺失数据机制 
是可忽略的时（因此为 MAR ) ，我们可以简单地通过加总所 
有缺失数据可能值的一般似然来获得似然。例如，假设我们 
要对一个具 n 个独立观察值的样本收集两个变量 X 和 Y 的 
数据。对于前 m 个观察值，我们观察到 x 和 y 两者，但对于 
剩下的 n — m 个观察值，我们仅能测量到 Y 。 对于有完整数 
据的单一观察值，我们用 f ( x , y \ d ) 表示其似然值，其中0为 
一 组支配 X 和 Y 分布的未知参数。假设 X 是离散的，一个 
具 X 缺失数据的个案其似然就是 Y 的“边际” 分布： 

g(y I d ) = 2]/( x，：y I (9) 

x 

当 X 为连续时，加总以积分代替。整个样本的似然 便为： 

m n 

L ( 6 ) = XX /( x ,, yi I d ) XJ g(yi \ d ) 

i—l i *=111+1 

问题就变成了寻找尽可能使这个似然值最大化的 0 值。许 
多方法可用于解决这个最适化问题，后面我将介绍其中的一 
些方法。 

当缺失数据的模式为单调时， ML 特别简单。在一个单 
调的形态中，可以用一个顺序安排变量，以使样本观察值的 
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排列情况为 :如果 数据对于某特别变量有缺失的话，那么必 
然地对于排在这个变量之后的其他变量数据也是缺失的。 

举一个包含有四个变量 Xi 、 X 2 、 X 3 和 X 4 的例子 。 A 
没有缺失数据， X 2 100% 的个案有缺失数据。缺失了 x 2 的 
个案在 x 3 和 x 4 这两个变量中数据也有缺失。额外地有 
20%的个案 X 3 和 X 4 有缺失数据，但 X 2 没有缺失数据 。一 
个单调的形态通常出现于面板研究中，其中，个人在不同时 
点退岀且不再回到研究/数据中。 

如果只有一个变量有缺失数据，该形态必然是单调的。考 
虑一个只有 X 具缺失数据的包含两个变量的例子。 fU ， /的 
联合分布可被写成 I y ) g ( y ) »其中 g (: y ) 为 Y 的边际分布 
(前面已定义过)且 | W 为给定 Y 时 X 的条件式分布。 
这样我们可把似然值重 写为： 

m n 

L(A, = Y[h(xi I yi ； A)JX^(^ I 

i=l i=l 

这个表达式与前一个表达式在两个重要方面有所不同。首 
先，第二个乘积是针对所有观察值的，而不只是那些有 X 缺 
失数据的观察值的。其次，参数已被分成两 部分: A 表示给定 
Y 时 X 的条件式分布，而#则表示 Y 的边际分布。这些改变 
意味着我们可以分别最大化似然值的这两个部分。因此，如 
果 X 和 Y 有一个二变量正态分布，我们就可以计算整个样本 
的 Y 的平均数和方差。再者，对于有 X 数据的个案，我们可 
以回归于 Y 上。得到的参数估计值可以结合起来以产生我 
们可能会关注的任何其他参数的 ML 估计值，如回归系数。 
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第3节 | 列联表数据 



这些 ML 估计的特征可以用列联表数据非常具体地说 
明。假设一个简单随机样本200人，我们要测量两个取值可 
能为1或2的二分类变量 X 和 Y 。 有150个个案，我们观察 
到 X 和 Y ， 并将获得的数据列于下面的列联 表中： 



y = 1 

y = 2 

X= 1 

52 

21 

X= 2 

34 

43 


对于另50个个案， X 为缺失的，我们只观察到确切地 
说我们有19个个案 Y = 1，31个个案 Y =2。 在总体中， X 和 
Y 的关系被叙 述为： 



y = l 

y = 2 

X = 1 

Pn 

/ >12 

X = 2 

/ >21 

/ >22 


其中，绚为义= 〖且 Y = J /的概率，如果我们只有具完整数据 
的150个观察值，似然 值为： 

L = (pn ) 52 (/>12 ) 21 (p2l ) 34 (/ >22) 43 

受到限制，此四个概率必须加总为1。此四个概率的 ML 估 
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计值是每一个单元格中的简单比率，也 就是: 


其中叫为落入单元格 ( f , 乃中 的个案 数目。因此我们 得到： 

pn = 0. 346 
P 21 — 0. 227 
p\2 = 0. 140 
P 22 = 0. 287 

但这不可行，因为我们还有额外的仅有 Y 的观察值，需要把 
它们整合到似然值中。假设缺失数据为可忽略的，有1 
的个案其似然值就是 p n + P 21 ，即 Y 〗的边际概率。同样 
地，对于 Y = 2的个案，似然值为 pn + P 22 0因此，整个样本 
的似然 值为： 

L = (pn ) 52 ( pl2 ) 21 ( />21 ) 34 ( />22 ) 43 (pn + p2\ ) 19 ( />12 + / >22) 31 

我们如何找到使这个表达式最大化的 A ：； 值？对大部分 
关于缺失数据问题的 ML 运用而言，这些估计值并没有明确 
的解法。然而，迭代的方法是必要的。但在这个例子中，形 
态必定是单调的（因为只有一个变量有缺失数据），因此，我 
们可以分别估计给定 Y 时 X 的条件式分布及 Y 的边际分 
布。然后，我们结合所有结果以得到四个单元格的概率。对 
于 2 X 2 的表， ML 估计量的一般形 式为： 

pij = piX= i I Y = j)p(Y = j) 

右边的条件式概率仅利用完整数据的个案来估计。它们可 
以通过一个普遍的方法——即将2 X 2表中单元格频数除以 
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栏总数——而获得。 Y 的边际概率估计值可由加总栏频数 
及缺失值的个案的 Y 频数，再除以样本数而获得。因此，我 
们 得到： 


八 

p\\ = 

= (52)(86 + 19) = 
V86/V 200 / 

0.3174 

p2\ = 

,(34)(86 + 19) = 
V86/V 200 / 

0. 2076 

P\2 = 

=(21W64 + 31N 
V64/V 200 > 

0. 1559 

A 

/ >22 = 

: (43)(64 + 31) = 
V 64 / V 200 / 

0. 3591 


当然，这些估计值与只用具完整讯息个案所得到的估计值不 
相同。另一方面，一个普遍使用的二分类变量相关性的测量 
的交叉相乘比，不管是从 ML 估计值计算而来还是仅根据完 
整个案而得的估计值，都会是相同的。简言之，有 X 缺失数 
据的观察值没有为我们提供关于交叉相乘比的额外信息。 

这个例子用于说明具缺失数据的 ML 估计的一些普遍 
特征。然而，很少读者会在应用 ML 估计法时，像以上所讲 
述的用手计算他们的特别运用。我们需要一个可以处理较 
多数据形式以及缺失数据型态的通用的软件。虽然对于分 
析列联表的 ML 估计计算并不困难 （ Fuch ， 1982； Schafer , 
1997)，事实上也没有商业软件可以处理这个任务。但在网 
络上可获取免费的 软件： 

(1) Jeroen K . Vermunt 的 Windows 版 / fM 程序，用以估 

计当某些数据缺失时各种类型的类别数据模型。 

( http : // www . kub . nl / fac - ulteiten / fsw / organisatie / dep - 
artmenten / mto / software 〗, htlm ) 
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(2) Joseph Schafer 的 CAT 程序，用以估计缺失数据的 
分层对数线性模型，但目前只在 & PLUS 软件包中作为一个 

程序库可供利用。 

( http ：// www . stat . psu . edu / 〜 jls ) 

(3) David Duffy 的 LOGLIN 程序，用以估计缺失数据的 

多种对数线性模型。 

( http ：// www 2. qimr . edu . au / davidD ) 
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第4节 | 具正态分布数据的线性模型 


在数据来自多元变量的正态分布的假设下， ML 可以用 
来估计许多线性模型。可能的模型包括普通线性模型、因子 
分析、联立方程和具潜变量的结构方程。虽然多元变量正态 
性的假设很强，但对于没有缺失数据的变量是全然无害的。 
此外，甚至当有些变量具非正态分布的缺失数据时（如虚拟 
变量），多元变量正态性假设下的 ML 估计值通常有好的特 
性，尤其是当数据为 MCAR 时。 W 

有许多方法可以用来对具可忽略缺失数据机制的多元 
变量正态数据做 ML 估计。当缺失数据服从一单调形态时， 
可用先前叙述过的方法将似然因子化运用到用传统软件估 
计的条件式及边际分布中 （Marini，Olsen & Rubin 1979) 0 

然而，这个方法因可能的运用而受到较多限制，而且不容易 
得到好的标准误及检验统计量的估计值。 

一般缺失数据模式可用一个称为期望最大化的算法来 
处理 (Dempster，Laird Rubin，1977) ，它可产生平均数、标 

准差(或同样地可产生平均数和协方差矩阵)和相关性的 ML 
估计值。这些总和统计量接着可被输入到标准线性模型化 
软件中以得到所关注参数的一致估计值。 EM 方法的优点 
有：（1)它很容易使用； （2) 很多商业的或免费的软件都可以 



36 


缺失数据 


执行。同时也有两个缺点 〆 1) 由线性模型化所报告的软件 
标准误和检验统计量并不 正确； （2) 对于过度识别模型，估计 
值不是全然有效的(“过度识别模型”指那些在协方差矩阵上 
隐含限制的模型）。 

一个比较好的方法是直接最大化所假设的线性模型的 
多元变量正态似然值。直接的 ML (有时也称为原始最大似 
然)提供具正确标准误的有效估计值，但需要有难以掌握的 
专业的软件。在本章接下来的部分，我们会具体讲述如何使 
用 EM 算法和直接 ML 。 
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第5节 | EM 算法 
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当有些数据缺失的时候， EM 算法是取得 ML 估计量的 
一 个非常普遍的方法 （Dempster et al . ， 1977； McKachlan &- 
Krishnan , 1997)。 它之所以被称为 EM ， 是因为它包含两个 
步骤: 一个期望步骤，一个是最大化步骤。这两个步骤在一 
个迭代的过程中多次重复，最终收敛到 ML 估计值。 - 

在此我并不解释一般设定下 EM 算法的两个步骤，而是 
着重于它对于多变量正态分布的运用。这里步骤 E 即期望 
步骤实质上变成缺失值的回归插补。假设数据组有四个变 
量，&到 X 4 , 且每个变量都含有不具特殊形态的缺失值。 
我们从选择未知参数的起始值，也就是平均数和协方差矩阵 
开始。这些起始值可以通过样本平均数和协方差的标准公 
式获得，不管是用成列删除或成对删除。根据参数的起始 
值，我们可以得到回归任何一个 X 于其他三个 X 上的系数。 
例如，假设有一些个案 Xi 和 X 2 都有数据，但 X 3 和 X 4 没有 
数据。我们用协方差矩阵的起始值以得到回归 X 3 于&和 
X 2 及回归 X 4 于&和 X 2 的结果。我们接着用这些回归系 
数，根据 A 和 X 2 的观察值，产生 X 3 和 X 4 的插补值。对于 
只有一个变量数据缺失的个案，我们根据所有其他三个变量 
进行回归插补。 
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在所有缺失数据都插补完之后，步骤 M 即最大化步骤 
包括使用插补数据和没有缺失的数据，来计算新的平均数和 
协方差矩阵的值。对于平均数，我们只要使用一般公式即 
可。对于方差和协方差，必须使用修正过的公式给每个涉及 
缺失数据的公式项。确切地讲，必须根据插补过程中的回归 
方程，对应残差方差和残差协方差从而增加公式项。例如， 
假设对观察值；， X 3 为使用 A 和 X 2 所插补。那么，只要 
U -3) 2 被用于传统的方差公式中，我们就用（: T ,3) 2 +4 21 代 
替，其中，21为从回归 X 3 于&和 X 2 而来的残差方差。 
加入残差项可以矫正通常在更传统插补方案中产生的对于 
方差的低估。假设对于观察值也是缺失的。那么当计 
算 X 3 和 X 4 的协方差时，只要 被用于传统协方差公式 

中，我们就用 ^3^-4+534.21 代替。最后一项为 X 3 和 X 4 在 
控制 Xl 和 X2 后的残差协方差。 

一旦我们得到新的平均数和协方差矩阵的估计值，我们 
就重新开始步骤 E 。 也就是说，我们用新的估计值来产生对 
于缺失值的新的回归插补。我们一直循环步骤 E 和步骤 M 
直到估计量收敛，即从一个迭代到另一个迭代之间结果已经 
几乎不变。 

注意， EM 运算法避免了传统回归插补的一个难题—— 
决定使用哪些变量作为自变量，并处理不同数据缺失模式有 
不同的自变量的情况。因为 EM 总是从完整协方差开始，因 
此它可能得到对于任何组预测量的回归估计值，不论在某个 
特别的缺失数据形态中可能存在多么少的个案。因此， EM 
总是使用所有可得的变量作为预测量以插补缺失数据。 
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第 6 节 | EM 实例 


我们使用来自 1994 年美国新闻和世界报道对美国最好 
大专院校的指南中关于美国 1302 所大专院校的数据。我们 
考虑下列 变量： 

GRADRAT 高年级毕业生对四年前就读人数的比率 
( 100 %) 

CSATSAT 语言和数学两个科目的平均分数 
LENROLL 新生入学人数的自然对数 
PRIVATE 1 = 私立 ; 0 =公立 
STUFAC 师生比率 （ 100%) 

RMBRD 每年食宿总支岀（千美元)〔 7 ] 

ACT 平均 ACT 分数 

我们的目标是要估计一个线性回归模型， GRADRAT 
是因变量，其他五个是自变量。 ACT 不会在回归模型中，它 
被纳入 EM 估计是因为它与 CSAT(CAST 为有大量缺失数 
据的变量）高度相关，因此可以让我们得到较好的缺失插 
补值。 



4 () 
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表 4.1 利用可得个案而得的大专学院数据的描述性统计 


变量 

非缺失个案 

平均数 

标准差 

GRADRAT 

1204 

60.41 

18.89 

CSAT 

779 

967. 98 

123. 58 

LENROLL 

1297 

6. 17 

1. 00 

PRIVATE 

1302 

0. 64 

0. 48 

STUFAC 

1300 

14. 89 

5. 19 

RMBRD 

783 

4. 15 

1. 17 

ACT 

714 

22. 12 

2. 58 


表 4.1 列岀了每一个变量没有缺失数据的个案数目，以 
及这些有数据的个案的平均数与标准差。只有 PRIVATE 
这个变量的数据是完整的。自变量 GRADRAT 有8%的大 

专院校缺失数据。 CSAT 和 RMBRD 都缺失40%左右，而 

% 

ACT 则缺失45%。对除了 ACT 外的所有变量使用成列删除 
会产生一个只有455个个案的样本，明显令人无法接受。然 
而，为了比较，我们还是把成列删除回归估计值呈现于表 4. 2。 


表 4. 2 使用成列删除预测 GRADRAT 的回归 


变量 

系数 

标准误 

^统计量 

/>值 

截距 

一 35. 028 

7. 685 

- 4. 56 

0. 0001 

CSAT 

0. 067 

0. 006 

10.47 

0. 0001 

LENROLL 

2.417 

0. 959 

2. 52 

0.0121 

PRIVATE 

13. 588 

1. 946 

6. 98 

0. 0001 

STUFAC 

— 0. 123 

0. 132 

一 0. 93 

0. 3513 

RMBRD 

2. 162 

0.714 

3. 03 

0. 0026 


其次，我们使用 EM 运算法来获得平均数、标准差和相 
关性的估计值。在主要的商业套装软件中， EM 对数法可得 
于 BMDP 、 SPSS、SYSTAT 及 SAS 。 然而，使用 SPSS 和 
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SYSTAT ， 要存盘输入其他线性模型化例行程序，这非常麻 
烦。对于大专院校数据，我们使用 SAS 的 MI 程序，结果显 
示于表 4. 3和表 4. 4。如使用其他 EM 软件，这个程序自动 
实现前面叙述过的所有步骤。 


表 4. 3 来自 EM 算法的平均数和标准差 


变量 


平均数 

标准差 


GRADRAT 


59.86 

18.86 


CAST 


957. 88 

121.43 


LENROLL 


6. 17 

0.997 


PRIVATE 


0. 64 

0. 48 


STUFAC 


14. 86 

5. 18 


RMBRD 


4. 07 

1. 15 


ACT 


22. 22 

2.71 



表 4. 4 

来自 EM 算法的相关性 



GRADRAT 

CAST 

LENROLL PRIVATE STUFAC 

: RMBRD 

ACT 

GRADRAT 1.000 





CAST 0.591 

1.000 




LENROLL -0.027 

0.192 

1.000 



PRIVATE 0.398 

0.161 

-0.619 1.000 



STUFAC -0.318 

-0.315 

0.267 -0.368 1.000 



RMBRD 0.478 

0. 479 

— 0. 016 0. 340 ~0. 282 

1.000 


ACT 0.598 

0.908 

0.174 0.224 -0.293 

0.484 

1.000 


比较表 4.3 和表 4. 1的平均数可见，不出意料，最大的 
差异出现在所有有着最多缺失数据的变 量中： GRADRAT 、 
CSAT 、 RMBRD 及 ACT 。 然而，即使对这些变量而言，成列 
删除和 EM 结果之间的差异也都没有超过2%。 

表 4.5 显示了使用 EM 统计量得到的回归估计值。虽 
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然系数与使用成列删除的表 4. 2并没有明显差异，但所得的 
标准误却低很多，从而导致较高的 《统计 量和较低的 P 值。 
遗憾的是，在这个例子中虽然系数为真实 ML 估计值，但标 
准误确实太低，因为它们假设所有个案都有完整数据。为了 
得到正确的标准误估计值，我们将使用随后叙述的直接 ML 
方法。[ 8 ] 


表 4. 5 根据 EM 算法预测 GRADRAT 的回归 


变量 

系数 

标准误 

^统计量 

P 值 

截距 

一 32. 395 

4. 355 

-7. 44 

0. 0001 

CSAT 

0. 067 

0. 004 

17. 15 

0. 0001 

LENROLL 

2. 083 

0. 539 

3. 86 

0. 0001 

PRIVATE 

12.914 

1. 147 

11. 26 

0. 0001 

STUFAC 

-0. 181 

0. 084 

— 2. 16 

0. 0312 

RMBRD 

2. 404 

0. 400 

6.01 

0. 0001 
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第7节 | 直接 ML 

. ： .妙忒:•.爻 ' • ：： i ^ : 


如我们之前看过的，大多数 EM 运算法的软件产生平均 
数及不受限制的相关性（或协方差）矩阵的估计值。当这些 
总和统计量被输人其他线性模型化程序时，产生的标准误估 
计值将会有偏误，而且通常是被低估的。为了做得更好，我们 
需要直接把所关注模型的似然值最大化。可以使用任一估计包 
含潜变量的结构方程模型 ( SEMs ) 的软件包来完成这个任务。 

当只有少量的缺失数据时，可以使用处理多组的任一 
SEM 程序来估计线性模型 （ Allison ， 1987； Muthen , Kaplan 
& Hollis , 1987)，其中包合 LISTREL 和 EQS 。 对于具更普 
遍形态的缺失数据，目前有四个程序可以执行线性模型的直 
接 ML 估计： 

Amos 一个 SEM 模型化的商业软件，现在可以作为一 
个独立的套装或 SPSS 的一个模块来使用。信息参见 
http "/ smallwaters . com 0 

Mplus 一个独立的商业软件。信息参见 http ：// stat - 
model . com 。 

LINCS Gauss 的一个商业模块。信息参见 http :// 
www . aptech . com 古 3 party , com 。 


Mx 一^|^费软件，可从 http ：// views , vca edu / mx 下载。 
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在进行实例讲解前，让我们先回顾一下基本的理论。令 
/Cr | / i ，2) 为一个被观察向量 A 平均数向量^及协方差矩 
阵2的多变量正态密度。如果我们对于一个来自这个多变 
量正态分布、有着/ = 1，…，《个观察值的样本有完整数据， 
那么似然函数 则为： 

IX "， 2) = IX /(xi I "， 2) 

i 

现在假设我们没有完整数据。如果对于个案；有一些变量缺 
失数据，我们令 A 为较小的向量，直接将缺失的元素从: T 中 
去除。令^•为 p 的次向量，以排 除在心 缺失的对应的元素， 
且令公为2的次矩阵，以删除对应于 X 缺失值的列和栏。我 
们的似然函数则 变为： 

IX "， 2) = JX /( 工 i 丨 w ， Si ) 

i 

虽然这个函数看起来非常简单，但却比具完整数据的似然函 
数更加难以处理。然而，这个似然函数可以由传统的 ML 估 
计方法来最大化。同时，我们可以取此似然函数的对数，对 
未知参数偏微分，并令结果等于0。得到的方程可以使用数 
学算法来求解，如使用产生标准误如同一个相乘组合的 
Newton - Raphson 方法。它也可能将一结构加于 " 和2上，从 
而让它们成为一个相对应于某个假设线性模型的、有较小组 
参数的函数，例如，因子模型组 

2 = AOA' + 平 

其中 A 为因子载荷矩阵，0为潜在因子的协方差矩阵，少为 
误差成分的协方差矩阵。估计过程可以产生这些参数的 ML 
估计值和标准误估计值。 
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第8节 | 直接 ML 实例 



在此用同时具有使用者图解界面及文字界面两者的 
Amos 3. 6来估计大专院校的回归模型。图解界面允许使用 


者用变量中的箭头来指明方程式。因为作者不能做实时示 
范，故而将相同的文字命令显示于图 4.1 中。数据在一个叫 

$ Sample size = 1302 
$ missing = - 9 
$ input variables 
gradrat 
csat 
1enroll 
private 
stufac 
rmbrd 
act 

$rawdata 

$ include = c : \college. dat 
$mstructure 
csat 
1enroll 
private 
stufac 
rmbrd 
act 

$ structure 

gradrat = () + csat + 1 enroll + private + stufac 
+ rmbrd + (1)error 
act<〉error 


图 4. 1 Amos 预测 GRADRAT 的回归模型指令 
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COLLEGE . DAT 的自由格式文字文件中，缺失数据标示为 
一9。 $ mtructure 告诉 Amos 要估计指定变量的平均数，这 
是估计有缺失数据模型的一个必要的部分。$ structure 指 
令指明要估计的方程。紧接在等号后的括号代表要估计一 
个截距。方程最后面的 （ Derror 告诉 Amos 要包含一个系数 
为 1. 0的误差项。最后一行， actOerror ， 考虑 ACT 和误差 
项之间的相关性，这是有可能的，因为 ACT 对于 GRADRAT 
没有直接效应。 Amos 自动考虑 ACT 和回归方程中的其他 
自变量相关。 

结果显示于表 4. 6。与表 4. 5中两步骤 EM 估计值的比 
较显示，两者得到的系数相同，但 Amos 标准误显著较大，这 
正是我们所期望的。但相对于我们在表 4. 2由成列删除所得 
到的仍然相当小。 


表 4. 6 以 Amo 使用直接 ML 预测 GRADRAT 的回归 


变量 

系数 

标准误 

^统计量 

/>值 

截距 

-32. 395 

4. 863 

— 6. 661 

0. 000000 

CSAT 

0. 067 

0.005 

13. 949 

0. 000000 

LENROLL 

2.083 

0. 595 

3.499 

0. 000467 

PRIVATE 

12.914 

1.277 

10. 114 

0. 000000 

STUFAC 

-0. 181 

0. 092 

-1.968 

0. 049068 

RMBRD 

2.404 

0. 548 

4.386 

0. 000012 
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第9节 I 结论 


对于随机缺失的数据而言，最大似然可以说是一个有效 
且实用的方法。在这种情况下，对于大样本， ML 估计值应该 
是最合适的。对于可用如 LISREAL 程序所估计的一般的结 
构方程模型之线性模型， ML 估计值很容易从许多广泛可用 
的软件包中获得。类别数据的对数线性模型 ML 估计也有 
可用的软件，但在这个设定中执行比较间接。 ML 方法的一 
个限制条件为，它需要一个包含所有缺失变量的联合概率的 
模型。对这个目的而言，多变量正态模型通常是方便的，但 
对于许多其他的运用可能不太实际。 
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虽然 ML 代表了处理缺失数据传统方法的一个重要的 
发展，但它也有其局限性。如我们已经看到的，关于线性模 
型和对数线性模型的 ML 理论和软件容易获取，但超出这两 
者之外的理论抑或软件通常比较缺乏。例如，如果你想要估 
计一个 Cox 比例风险模型或一个有序的 logistic 回归模型，你 
将难以对缺失数据执行 ML 方法。甚至假使你的模型可以 
用 ML 估计，但你也可能难以找到你特别需要的、专业的诊 
断或图形输岀软件。 

值得庆幸的是，有一个备选方法——即多重插补，它有 
着与 ML 相同的最适特性，但却排除了某些局限性。更明确 
地，当数据为 MAR 时，正确使用多重插补 （ MI ) 会产生一致 
的、渐近有效且渐近正态的估计值。不同于 ML ， MI 几乎可 
以被任何一种数据及任何一种模型所使用，且分析可以利用 
未修改的、传统的软件执行。当然， MI 也有它自身的缺点。 
它的执行可能很麻烦，且也容易出错。这两个问题可以通过 
使用好的软件做插补来解决。但它最致命的缺点是，每次你 
使用 MI 时，它都会产生不同的估计值(但愿差异很小）。这 
可能导致奇怪的情况，即不同研究者使用相同的方法、相同 
的数据却得到不同的数字。 
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第1节 | 单一随机插补 


MI 不产生一个单一组数目的原因是，故意在插补过程 
中引入了随机变异。若没有一个随机成分，决定性的插补方 
法通常对有缺失数据的变量产生低估的方差估值，而且有时 
候，协方差也一样会被低估。如我们在第4章所讲到的，对 
于多元变量正态模型的 EM 运算法，可以使用残差方差和协 
方差估计值来矫正传统公式，来解决这个低估方差/协方差 
的问题。然而，一个好的备选方法是随机抽取自每一个插补 
变量的残差分布，并把这些随机数字加到插补值。另外，传 
统公式也可以用来计算方差和协方差。 

这里举一个简单的例子。假设我们想要估计 X 和 Y 之 
间的相关性，但50%的个案有 X 缺失数据。我们可以通过 
对有完整数据的个案回归 X 于 Y ， 然后再用得到的回归方程 
产生有缺失 X 的个案的预测值，进而插补缺失的 X 值。作 
者对一个具1万个个案的模拟样本做了这种处理，其中 X 和 
Y 抽取自一个标准双变量正态分布中，两者的相关性为 0. 30。 
一半 X 的值被指定为缺失的（完全随机）。利用回归于 Y 的 
方法来替代缺失值后， X 和 Y 的相关性估计为 0. 42。 

样本相关性是样本 X 和 Y 的协方差除以它们样本标准 
差的乘积。为什么利用了回归于 Y 的方法后会高估相关性 
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呢？首先，回归插补方法产生无偏误的协方差估计值。此 
外，（没有缺失数据的) Y 的标准差被正确估计为1.0,但（包 
含插补值的) X 的标准差只有 0. 74,而其实际的标准差应为 
1.0。所以造成了相关度的高估。换一个方法来考虑这个问 
题，5000个有缺失数据的个案的 X 插补值为 Y 的一个完全 
线性函数，因此增大两个变量间的相关性。 

我们可以通过从 X 的残差分布随机抽取残差并将这些 
随机数字加到 X 的预测值上，以矫正这个偏误。在这个例子 
中，（对 Y 回归的) X 的残差分布为一平均数为0且标准差为 
0. 9525的正态分布(从成列删除的最小二乘回归估计而得）。 
对于个案令 A 为一来自标准正态分布的随机抽取且令糸 
为从回归 X 于 Y 而得到的预测值。我们修正的插补值则为 
元= S £ +0.9525 Ml 。 对所有有缺失 X 的观察值而言，我们 
用云替代，然后再计算相关性。当作者对这个有1万个个案 
的模拟样本进行这种处理时，（有修正插补值的） X 和 Y 之间 
的相关性为 0. 316,只比真实值 0. 300高一些而已。 
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第2节 | 多元随机插补 


随机插补可以消除决定性的插补所特有的偏误，但仍存 
在一个严重的问题。如果我们把插补的数据(不管是随机或 
决定性的）当做真实的数据来使用，导致的标准误估计值通 
常会比较低，而检验统计量会比较高。标准误估计的传统方 
法不足以说明数据为插补的事实。 

对于使用随机插补而言，其解决方案在于不止一次地重 
复插补过程，从而产生多个完整数据组。因为随机成分，关 
注的参数估计值在每个插补的数据组中将会只有微小差异。 
横跨插补的变异可以被用来向上调整标准误。 

对于一个有着1万个个案的模拟样本，作者重复随机插 
补过程8次，产生的估计值见表 5. 1。虽然这些估计值近似 
反映无偏误的，但因为没有考虑插补[ 9 ]，所以标准误是向下 
偏误的。我们通过对这8个相关性估计值取平均值，得到一 
个单一的估计值 0. 3125。用以下三个步骤来产生改良的标 
准误估 计值： 

(1) 估计标准误平方（以得到方差），并对8个结果取平 
均值； 

(2) 对这8个复制的结果计算相关性估计值的 方差； 

(3) 加总步骤1和步骤2的结果（运用步骤2中的一■个 
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对方差的小矫正），并取平方根。 

将此置入一个方程中，令 M 为复制的次数，^为复制 A 中的 
相关性 ，& 为复制々中估计到的标准误。则 F 标准误的估计 
值(相关性估计值的平均数) 为： 

s . E . ⑺ + 

[5. 1] 

这个方程可以用于由多重插补所估计的任何参数,^表示所 
关注参数的第 々个 估计值 （ Rubin ， 1987 )。 把这个方程运用 
于我们关注的例子中，得到标准误为 0. 01123, 大约较由 8 个 
样本的标准误的平均数高出 24 %。 


表 5. 1随机插补数据之相关性与标准误 


相关性 

S.E. 

相关性 

S.E. 

0. 3159 

0. 00900 

0.3118 

0. 00903 

0. 3108 

0. 00903 

0. 3022 

0. 00909 

0. 3135 

0. 00902 

0. 3189 

0. 00898 

0. 3210 

0. 00897 

0. 3059 

0. 00906 
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第3节 | 在参数估计值中考虑随机变异 


虽然作者之前描述过的插补缺失数据的方法已经相当 
完善了，但它并不是最理想的。为了产生 X 的插补值，作者 
对有完整数据的个案回归 X 于 Y 上，以产生回归 方程： 

Xi = a +by i 

对于 X 有缺失数据的个案，插补值计 算为： 

JCi = a ~ {- byi + s x . y Ui 

其中〜是一个来自标准正态分布的随机抽取，而 s x ^ 为误 
差项的估计标准均方根差。对于模拟的数据组，我们得到 
sq = 0 . 9525。这些值用来对8个完整数据组中的每一个产 
生插补值。 

这个方法的问题在于，它视 a 、 6 和& .3； 如同真实参数， 
而非样本估计值。很明显，我们不能得知真实值为多少，但 
对于“适当”的多重插补 ( Rubin ， 1987)，每一个插补的数据组 
应该基于不同组的 a 、 6和值。这些应该从参数的贝叶 
斯后验分布中随机抽取。只有这样，多重插补才能完全体现 
我们关于未知参数的不确定性。 

这种观点自然会产生许多疑问。什么是参数的贝叶斯 
后验分布？我们如何从后验分布中随机抽取用于插补的值? 
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我们真的需要这额外的复杂程序吗？第一个问题需要另一 
本书来回答，而且幸好在社会科学的量化运用系列丛书里 
(Iversen ，1985) 有一本相关的书。对于第二个问题，有数个 
不同的方法可以从后验分布中进行随机抽取，它们有些被包 
含在容易使用的软件里。在本章稍后部分，当我们考虑在多 
变量正态模型下的 MI 时，作者将解释一种叫做数据扩增法 
的方法 ( Schafer ， 1997)。 

如果不使用从后验分布中随机抽取的方法可以吗？这 
个问题的答案很重要，因为有一些随机插补软件，如 SPSS 中 
的缺失数据模块，可以随机抽取参数值。在许多例子中，作 
者认为答案是可以的。如果样本够大且有缺失数据的个案 
比例很小，那么缺少这个额外步骤的 MI 就更容易产生非常 
接近那些包含这个额外步骤的结果。另一方面，如果样本小 
或有缺失数据的个案比例很大，则额外的变异可以产生明显 
的差异。 

继续我们所关注的例子。作者用数据扩增法插补8个新 
数据组，以从参数的后验分布中产生随机抽取。表 5.2 提供 X 
和 Y 间的相关性及每一个数据组的标准误。相关性估计值的 
平均数为 0. 31288。使用方程 5. 1，估计标准误为 0. 01329,比 
由较粗糙的插补方法所获得的 0. 01123稍大。一般而言，当用 
于插补中的参数为随机抽取时，标准误会略显较大。 


表 5. 2 使用数据扩增法的随机插补数据之相关性与标准误 


相关性 

S. E. 

相关性 

S.E. 

0. 30636 

0. 0090614 

0. 32086 

0. 0089705 

0.31316 

0. 0090193 

0. 29760 

0. 0091143 

0. 31837 

0. 0089864 

0. 32701 

0. 0089306 

0. 31142 

0. 0090302 

0. 30826 

0. 0090498 
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第4节 | 在多变量正态模型下的 

多重插补 


为了做多重插补，你需要一个模型以产生插补值。对于 
刚才考虑过的两个变量的例子，作者利用一个具正态分布误 
差的简单回归模型。很明显，更复杂的情况需要更复杂的模 
型。然而，对于模型的选择来说， MI 可能没有 ML 那么敏 
感，因为模型只用来插补缺失数据，而不用来估计其他参数。 

理想的情况是，我们会特别建构插补模型以代表每一个 
数据组的独特的特征。在实际应用中，利用便于使用的、且 
适用于广泛数据组的、合理良好近似反映的、现成的模型会 
更加方便。 

MI 最受欢迎的模型为多变量正态模型，也就是先前在 
第4章使用过的、具缺失数据的线性模型的 ML 估计的基 
础。多变量正态模型意 味着： 

(1) 所有变量都有着正态分布； 

(2) 每一个变量可以用所有其他变量的一个线性函数以 
及一个正态、同方差的误差项所表示。 

虽然这些是很严格的条件，但实际上，即使当有些变量 
已经明确不是正态分布时，多变量正态模型仍然可以实现好 
的插补 ( Schafer ， 1997)。对那些没有缺失数据的变量而言， 
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这是一个完全无害的假设。而对那些有缺失数据的变量而 
言，正态化转换则可以大大地改善插补的质量。 

本质上讲，多变量正态模型下的 MI 是前述两变量例子 
中使用过的方法的概括。对于每一个有缺失数据的变量，我 
们估计该变量对于所有其他受关注变量的线性回归。最理 
想的结果是，回归参数是从贝叶斯后验分布中随机抽取而 
得。估计到的回归方程接着用来产生有缺失数据的个案的 
预测值。最后，对每一个预测值，我们加上该变量残差正态 
分布的一随机抽取值。 

插补过程中最复杂的部分是从贝叶斯后验分布中得到 
随机抽取值。在作者写作本书之时，已有两种用以实现随机 
抽取的算法可用现有的软件执行 ：数据 扩增法 （ Schafer ， 
1997) 及抽样重要性/重抽样 ( SIR ; Rubin , 1987)。这里给出 
一些执行这些方法的计算机程序。 

数据扩增法 

NORM 由 Schafer 开发的免费软件，并在其1997年出 
版的书中叙述过。作为一个独立的 Windows 版本或 
& PLUS 的一个程序库，相关资料参见 http ：// www . stat . 
psu . edu / 〜 jls / 0 

SOLAS 一个独立的商业套装，包含数据扩增法（版本 
2及更高版本)和一个倾向评分方法。后者在许多应用上是 
无效的 （ Allison ， 2000)。相关资料参见 http :// www . statso - 
lusa. com 0 

PROCMI —个 SAS 程序，可于 8.1 或更高的版本中使 
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用，相关资料参见 http ：// www . sas . com 。 

抽样重要性 / 重抽样 

AMELIA 一个由 King 、 Honaker 、 Joseph、Scheve 及 
Singh (1999) 开发的免费套装。作为一个独立的 Windows 程 
序或 Gauss 的一个模块使用。相关资料参见 http ：// gKing . 
harvard , edu / stat . shtml 0 

SIRNORM 一个由 C . H . Brown 和 X . Ling 写的 SAS 
宏命令。相关资料参见 http ：// yates . coph . usf . edu / re ¬ 
search / psmg / web . html 0 

两种算法理论上都有一定的合理性。 SIR 的提倡者 
( King , Honaker , Joseph & Scheve , 2001) 宣称它需要极少 

的计算机运算时间。然而，这两种方法的相对优越性尚无定 
论。因为作者有较多关于数据扩增法的经验，因此将会在本 
章接下来的部分着重介绍这个方法。 
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第5节 | 多变量正态模型的数据扩増法 


数据扩增法是马尔可夫链蒙特卡尔运算法的一种形式， 
一个寻找后验分布的普遍方法，在贝叶斯统计学中越来越受 
欢迎。在这个部分，作者将叙述它如何处理多变量正态模 
型。虽然现成可用的软件可自动执行大部分的运算，但对于 
实际进行过程而言，有一个普遍的理解是有帮助的，特别是 
当事情出错时。 

迭代算法的普遍结构与在前一章叙述过的多变量正态 
模型的 EM 算法很像，但它还需在两个时点做随机抽取，接 
下来作者会叙述这点差异。在开始 DA 前，必须选择用于插 
补过程的一组变量。这组变量很明显应该包含所有有缺失 
值的变量，以及其他在模型中需要进行估计的变量。同时也 
应该把不在目标模型中但与具缺失数据的变量高度相关的、 
或与那些具缺失数据的变量的概率有关的、额外的变量包含 
进来。 

一旦选定变量后， DA 包含下列 步骤： 

(1) 选择参数的起始值。对于多变样正态模型，参数为 
平均数和协方差矩阵。起始值可以利用成列删除或成对删 
除的标准公式得到。有在前一章叙述过的用 EM 算法而获 
得的估计值则更好。 
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(2) 用平均数和协方差的当前值来获得方程回归系数的 
估计值，方程中每一个有缺失数据的变量回归于所有被观察 
到的其他变量上。对每一种缺失数据的形态都这样处理。 

(3) 用回归估计值产生关于所有缺失值的预测值。对每 
一个预测值，加上一个从该变量残差正态分布中得到的随机 
抽取值。 

(4) 用具观察值和插补值的“完整”数据，利用标准公式 
重新计算平均数和协方差矩阵。 

(5) 从新得到的平均数和协方差的后验分布中随机抽取 
平均数和协方差。 

(6) 用随机抽取的平均数和协方差，回到步骤2且继续 
循环其后的步骤，直到达成收敛。用在最后一次迭代中所产 
生的插补值构成一个完整数据组。 

步骤5需要进一步的解释。为了得到参数的后验分布， 
我们首先需要一个先验分布。虽然可以根据关于这些参数 
先前的看法，但是通常的做法是使用一个“不提供信息”的先 
验分布，即包含很少或根本不包含与参数相关的信息的先验 
分布。我们看看它如何在一个简单的状态下起作用。假设 
我们有测量某个单一正态分布的变量 Y 的〃个样本数。样 
本平均数为 t 样本方差为5 2 。我们想要从和 V 的后验分 
布中随机抽取平均数和方差。利用一个不提供信息的先验 
分布， [ 1 G ] 我们可以从自由度为〃一 1的卡方分布中进行抽 
样、对抽取值取导数、并将结果乘以 m 2 , 以得到方差的随机 
抽取值5 2 。接着我们从一平均数为 S 且方差为 〜 — In 的正态 
分布中抽样，以得到平均数的一个随机抽取值。 

如果没有缺失数据，这些会是来自真实参数的后验分布 


I 
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的随机抽取值，但如果我们有插补缺失数据，那么实际上有 
的值是当插补数据为真实数据时所得到的后验分布的随机 
抽取值。同样，在给定当前参数值的条件下，当我们随机在 
步骤3中插补缺失数据时，有的值为缺失数据的后验分布的 
随机抽取值。然而，因为当前值可能不是真实值，插补数据 
也可能不是真实后验分布的随机抽取值，这也就是为什么程 
序必须是迭代的。通过持续地在参数的随机抽取(取决于观 
察到的及插补数据）和缺失数据的随机抽取（取决于当前参 
数)之间不断来回，我们最终得到从数据和参数两者的联合 
后验分布中得到的随机抽取值，而这个仅取决于被观察到的 
数据。 
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第6节 | 在数据扩増法中收敛 


当你运用数据扩增法时，你必须指明反复的次数。然 
而，这产生了一个 难题: 需要多少次的迭代才能得到缺失数 
据和参数的联合后验分布的收敛值？如使用在 EM 运算法 
中的最大似然迭代估计，估计值会收敛到单一组的值。接着 
收敛可以很容易地通过检查从一个迭代到另一个迭代参数 
估计值改变的大小来进行评估。另一方面，对于数据扩增 
法，运算会收敛到一个概率分布，而非单一组的值。很难确 
定收敛事实上是否达成。虽然有些诊断统计量可以用来评 
估收敛 ( Schafer ，1997) ，但它们根本不可靠。 

在大多数运用中，迭代次数的选择都是胡乱瞎猜。关于 
其可能的范围，为了给出一些提示， Schafer (1997) 在他书里 
的例子中，使用介于50到100之间的迭代次数。次数越多 
越好，但每一次迭代其运算强度可能很大，特别是对有许多 
变量的大样本来说。指明一个较大的迭代次数可能会让你 
长时间痛苦地盯着你的屏幕。 

有许多原则要谨记在心。第一，缺失数据（事实上是缺 
失信息，与缺失数据不大相同）的比例越高，就需要越多次的 
迭代以达成收敛。如果只有5%的个案有缺失数据，你用小 
数目的迭代次数就可能过得去。第二， EM 运算法的收敛速 
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度是数据扩增法收敛速度的有效暗示和征兆。一个好的经 
验法则是， DA 的迭代次数至少要与 EM 所需的迭代次数相 
同。这也是为什么总在数据扩增法之前进行 EM 的另一个原 
因(第一个原因是 EM 为数据扩增法提供了良好的起始值)。 

作者对于迭代法这个议题的感触是，在大多数的运用中 
它不是那么重要。从决定性的插补到随机的插补是一个巨 
大的改进，甚至就算这个随机插补其参数并不是随机抽取 
的，也已经是巨大的改进。而从没有随机抽取参数的随机插 
补到有随机抽取参数的随机插补是另一个大的改进，但这个 
改进毫不起眼。从迭代次数少的数据扩增法到迭代次数多 
的是更进一步的改进，但在大多数运用中，其边际回报可能 
相当小。 

另一个复杂性来源于多重插补产生多元数据组的事实。 
至少需要两个数据组，越多越好。给定固定的运算时间，我 
们可以产生更多数据组，或对每一个数据组产生更多次数据 
扩增法的迭代。可惜的是，有着很多缺失信息的数据组同时 
需要更多的迭代和更多数据组。虽然有关这个议题写得很 
少，但作者更倾向于优先考虑额外的数据组。 
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平行的数据扩増法 
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我们刚才已经看到如何使用数据扩增法来产生单一完 
整的数据组。对于多重插补，我们需要数个数据组。有两个 
方法被提岀用来执行此 任务： 

(1) 平行的。对每一个想要的数据组进行一个别系列的 
迭代。这可以从同一组起始值开始（如 EM 估计值），也可以 
从不同的起始值开始。 

(2) 连续的。进行一长系列的数据扩增法循环。取每第 
々次迭代产生的插补4为原来给定数据组的想要的数目。 
例如，如果我们有五个数据组，我们可以先进行500次迭代， 
再接着使用产生自每第100次迭代的插补。在第一次插补 
前，500次大数目的迭代形成了一个允许该过程收敛到正确 
分布的测试时期。 

两种方法都可以接受。连续方法的一个优点是，较容易 
收敛到真实后验分布，特别是对于那些在序列中位置较后的 
数据组。然而，每当你从相同的一系列迭代中取出多个数据 
组时，却不能确定那些数据组是否在统计上相互独立，而这 
种独立性是有效推论的必需条件。在相同系列中两个数据 
组越接近，它们就越有可能存在某些依赖性/相关性。这也 



66 


缺失数据 


就是为什么你不能只运行200次迭代以得到收敛，并且接着 
用5次迭代来产生五个数据组。 

平行方法避免了依赖性/相关性的问题，但更不能确定 
是否达到收敛。此外， Rubin (1987) 和 SchaferC 1997) 都建议 

与其对每一个序列都使用相同组的起始值，不如从一个以 
EM 估计值为中心的“过度分散的”先验分布中抽取起始值， 
但这并不总是容易执行。 L 11 ] 

对于大量广泛的运用来说，作者认为选择连续或平行方 
法不会有重大差异。若有着同样次数的迭代，两种方法应该 
会给出几乎相同的结果。作者相信在大多数的例子中，当使 
用平行方法时，以 EM 估计值为每一个迭代系列的起始值， 
都能获得可接受的结果。 
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第8节 | 对非正态或类别数据 

使用正态模型 

… I iiiiii_iriiiiirfiiniiip »i i 唰 _ if iwri ■ 隱 l ii wiiwii i ii i . 


可以以多变量正态分布紧密近似反映的数据组事实上 
很稀有，有时会岀现具高度偏态分布的变量以及其他完全是 
类别型的变量。在诸如此类的例子中，我们刚才考虑过的根 
据正态的方法有任何的价值吗？如稍早前叙述过的，对于没 
有缺失数据的变量都没问题，因为它们没有缺失数据的变量 
而且不需要被插补。 

对于有缺失数据的变量，大量的证据显示这些插补方法可 
以处理得相当好，甚至当分布明显不是正态的时候 （ Schafer ， 
1997)。然而，有一些技巧可以改善插补非正态变量的正态 
模型的绩效。 

对于高度偏态量化变量，在执行插补前先转换这些变量 
以降低偏度，通常是有帮助的。任何可以胜任这项任务的转 
换应该都是可行的。在数据已经被插补后，相反的转换可以 
运用来将该变量变回其原始的度量标准状态。例如，对数转 
换能大量降低大多数收入数据的偏度；在插补后，只要取收 
入的反对数即可。这对于有限制范围的变量帮助特别大。 
如果你插补收入的对数而非收入本身，就不可能产生小于0 
的收入插补值。同样地，如果要插补的变量是比例， logit 转 
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换就可以防止大于1或小于0的插补。 

有些软件可以用另一种方法处理有限制范围的问题。 
如果你对一个特别变量指明一个最大或最小值，它将会拒绝 
所有在这个范围外的随机抽取值，并简单地做额外的抽取直 
到它处于指定范围中。虽然这是一个很有用的可选方法，但 
使用转换以降低变量中的偏度仍是令人满意的。 

对于离散的量化变量，通常需要把插补值做合适的四舍 
五人以变成一个离散的量尺。例如，假设成年人被问及他们 
有多少个小孩。对这个问题的回答，其分布会是典型的偏 
态，所以可以通过运用对数或从平方根转换开始。在插补 
后，反向转换将会产生非整数的值。这些可以被四舍五入取 
整数以符合原始量尺。有些软件可以自动执行诸如此类的 
四舍五人。 

若完全是类别的变量又怎样呢？虽然有方法和计算机 
程序设计仅用于只有类别变量的数据组，以及有类别的和正 
态分布变量的混合的数据组，但这些方法更加难以使用且通 
常会彻底地失效。许多使用者也会运用有较少修改的正态 
模型来执行。二分类的变量，如性别，通常使用有着0或1 
的虚拟(指标)变量来代表。任何对一个二分类变量的转换 
将仍产生一个二分法，因此没有值可以用来试着降低偏度。 
相反，我们可以如同其任何其他变量一样简单地插补该 0-1 
变量。接着根据该插补值是否高于或低于0.5,再四舍五入 
插补值至0或1。大部分的插补会落于（0, 1) 这个区间内， 
有时候仍会落在该区间外。在这个例子中没有问题，因为我 
们根据插补值较接近0或1者，来指派0或1的值。 

如果有超过两个类别的变量，通常由虚拟变量组来表 
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示。在数据扩增法阶段不需要做任何特别的事，但当指派最 
终值时则需要小心。问题是我们需要指派个体至一个类别 
且只有这么一个类别，并适当编码所有的虚拟变量。假设被 
插补变量为婚姻状态，有三个类 别：从 未结婚、目前已婚、曾 
结过婚。令 N 为从未结婚的虚拟变量，令 M 为目前已婚的 
虚拟变量。用这两个变量做插补且使用插补值产生最终的 
编码。这里有一些可能的插补和得到的 编码： 



插补值 


最终值 


N M 1 — JV 一 M N A4 

0.7 

r 0.2 

0. 1 

1 

0 

0. - 

i 0.5 

0. 2 

0 

1 

(U 

J 0. 2 

0. 6 

0 

0 

0.( 

i 0.8 

-0. 4 

0 

1 

—0 . 2 

! 0.2 

1 

0 

0 


基本原则是这样的。除了两个插补值外，也要计算1减去这 
两个插补值的总和，这可被视为参照组的插补值。接着确定 
哪一个类别有最高的插补值。如果该值对应着一个明确为 
虚拟变量的类别，则指派1给该变量。如果最高的值对应参 
照组，则指派0给另外两个虚拟变量。此外在这个背景下负 
值可能显得比较奇怪，但此法仍然可以运用。延伸至四个或 
更多个类别应该就很容易理解且简单易做了。 
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第9节 I 探索分析 




靈.靈】 




很多数据分析包含探索工作，在其中分析实验的各种方 
法和模型。对于任何已经做过这种工作的人而言，多重插补 
的过程似乎问题比较大。对数个数据组同时执行探索分析 
必然是一个繁琐的过程。此外，对每个数据组的分析也可能 
建议使用有细微差异的模型，但多重插补对所有数据组要求 
一个相同的模型。 

解决方法很简单，但却显得特别随意。当产生多元数据 
组时，只要产生比你做多重插补分析时所需要的多一个的数 
据组即可。因此，如果你想要做三个数据组的多重插补分 
析，就会产生四个数据组。之后再用这个额外的数据组做探 
索分析。一旦你决定某单一模型或小组模型，就要对剩余的 
数据组重新估计这些模型，并运用我们已经讨论过的结合结 
果的方法。要谨记，虽然从探索分析获得的参数估计值将近 
似反映无偏误的，但是所有的标准误会向下偏误且统计检定 
量会向上偏误。因此，使用更加保守的准则而非通常（有着 
完整数据)的准则来衡量一个给定模型的适当性可能结果会 
更令人满意。 
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第10节 | Ml 实例1 






我们现在有足够的背景知识可以考虑一个现实中的多 
重插补的例子。让我们重新回顾一下第4章中使用过的例 
子，一个包含7个变量测量的1302所美国大专院校数据组， 
其中除了一个变量外，所有的变量都有缺失数据。和之前一 
样，我们的目标是估计一个预测 GRADRAT 的线性模型， 
GRADRAT 为高年级毕业生对于四年前以新生身份就读的 
数目之比率。自变量包含除了 ACT (即 ACT 分数之平均数） 
以外的所有变量。这个变量 （ ACT ) 被包含于插补过程中以 
得到较佳的 CSAT (即结合 SAT 分数的平均数）预测。后面 
的变量 ( CSATM 0% 的个案有缺失数据，但对于同时有两个 
变量 (CSA 丁和 ACT ) 数据呈现的488个个案， CSAT 与 ACT 
高度相关 （ r = 0. 91)。 

第一个步骤要检查变量的分布以检验正态性。直方图 
和正态概率图显示除了一个变量外，所有变量都合理接近正 
态分布。这个例外是高度左偏的就学这个变量。如同在 ml 
实例中，作者使用就学的自然对数，其分布有着很小的偏度。 

为了执行数据扩增法，作者使用 SAS 的 PROC MI 。 第 
一步是要用 EM 运算法来估计平均数、标准差和相关性，结 
果已在表 4. 4中呈现。 EM 运算法用了 32次迭代达到收敛。 
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这是一个不算太大的数目，其或许反映了某些变量有大比例 
的缺失数据。然而，它还没有大到意味着运用 EM 运算法或 
数据扩增法会有严重问题。 

这里有一个最小组的 SAS 命令语句以产生多重 插补： 

proc mi data = college out = col limp ； 

var gradrat csat lenroll private stufac rrabrd act ； 

run ； 

college 为输入数据组(对于缺失值用点表示）的名称，而 cd- 
limp 为输岀数据组（包含被观察到的值与插补值）的名称。 
var 述句给予用于插补过程中的变量的名称。 PROCMI 的 
默认值为根据一系列连续性的迭代产生的五个完整数据组。 
以 EM 估计值作为起始值，在第一次插补前有200次“测试” 
迭代。接着有100次在连续的插补之间的迭代。五个数据 
组被写入一个大的 SAS 数据组以利于后面的分析。输出数 
据组包含一个新的变量 _imputation_ ，其值由1到5表示不同 
的数据组。因此，原始数据组有1302个观察值，新数据组有 
6510个观察值。 

不采用默认值，作者实际上采用了一个稍微复杂的 程序： 

proc mi data = ray. college out = coll imp seed = 1401 ； 
minimum= 0600..0126011 
maximum= 1001410. • 100870031 
round =1111. Ill ； 

var gradrat csat lenroll private stufac rrabrd act ； 

MCMC nbiter = 500 niter = 200 ； 

run ； 

seed= 1401 对于随机数字产生器设定一个种子值，以至于 
结果可以在后面一次执行中确实能被重新产生。 maximum 
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和 minimum 选择设定对每一个变量的最大和最小值。如果 
一个随机插补值恰巧落在这些边界外，则该值会被拒绝，而 
一个新的值会被抽取。对 gradrat 和 stufac ， 最大值和最小值 
的理论边界为0和100。对于 lenroll 和 private ， 没有指明边 
界。对于 csat 、 rmbrd 和 act ， 作者使用每一个变量观察到的 
最大值和最小值。 round 选择四舍五入所有变量的插补值至 
整数，除了 STUTAC 以外，它被四舍五入到小数点后第一位。 

MCMC 述句允许对数据扩增法过程釆取更多控制。作 
者在此已指明在第一次插补前要有500次测试的迭代，接着 
在连续的插补之间有200次迭代。 

这些迭代能够足以达到收敛吗？答案很难确定，但我们 
可以试验由 Schafer (1997) 建议的一些收敛诊断。一个简单 
的做法是检查产生自每一个迭代的一些参数值，并看所有迭 
代得到的结果之间是否有任何趋势。对于有七个变量的多 
元正态模型，参数为7个平均数、7个方差和21个协方差。 
不检查所有参数，只专注于那些牵涉有最多缺失数据的变量 
的参数，因为这些牵涉有最多缺失数据的变量的参数最有可 
能出现问题。对于这些数据，变量 CSAT 有40%的缺失数 
据，因为终极目标是要估计预测 GRADRAT 的回归，因此我 
们看一下 CSAT 的二变量回归斜率，也就是 CSAT 和 
GRADRAT 的协方差除以 CSAT 的方差。图 5.1 画出了数 
据扩增法前100次迭代的回归斜率值。在第一次迭代后，在 
斜率系数估计值中似乎没有特别的趋势，这也让人比较放心。 

另一个被提议使用的诊断方法，是对所关注的参数于连 
续迭代中的许多滞后值做一组自相关。目标是要在插补间 
有足够的迭代，从而使自相关为0。使用全部系列1300个迭 



Iteration 

图 5. 1 前 100 数据扩增迭代的回归中变量 CSAT (对 GRADRAT ) 

的斜率估计值分布情况 


Corr USM 


0.34 
0.32 
0.30 
0.28 
0.26 
0.24 
0. 22 
0. 20 
0. 18 
0. 16 
0. 14 
0. 12 
0. 10 
0. 08 
0. 06 
0.04 
0.02 
0 . 00 
-0. 02 
-0. 04 
-0.06 
-0.08 
- 0 . 10 
- 0 . 12 
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Lag 


图 5. 2 CSAT 对 GRADRAT 的回归斜率的第1至100个 

滞后值间变化之自相关 
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代，图 5. 2画岀了具不同滞后值的二变量回归斜率值间的自 
相关，因此最左边的值 0. 34代表距离为一个迭代远的参数 
值间的相关性。第二个值为两个迭代分开的参数值间的相 
关性。虽然这两个初始值比较高，但自相关迅速降低至相当 
低的值(落在0的 0. 10间），明显有一个随机的形态。这两个 
诊断结合一起，建议我们在插补间可以使用远少于200次的 
迭代。多做一些迭代没有什么不利，而且这里使用的诊断不 
保证会达到收敛。 

在产生完整数据组后，作者可以将转换过的变量就读 
( ENROLLMENT ) 的对数转换回其原始形式，但因为作者期 
望就读 ( ENROLLMENT ) 对于毕业率的效应有逐渐降低的 
回报 ( RETRUNS ) ，因此作者决定让这个变量保留对数形式， 
就如同作者在第4章对以 ML 估计的回归模型一样。 


表 5.3 五个完整数据组的回归系数(及标准误) 


截距 

CSAT 

LENROI 丄 

PRIVATE 

STUFAC 

RMBRD 

-33.219 

0. 069 

1. 550 

11. 632 

一 0. 145 

2.951 

(4.272) 

(0. 004) 

(0. 534) 

(1. 124) 

(0. 083) 

(0. 390) 

-33. 230 

0. 067 

2. 023 

12. 840 

_ 0. 116 

2.417 

4. 250 

(0. 004) 

(0. 526) 

(1. 126) 

(0.082) 

(0. 392) 

-31. 256 

0.071 

1.852 

12. 274 

0. 213 

1. 657 

(4.306) 

(0. 004) 

(0. 546) 

(1. 157) 

(0. 084) 

(0. 408) 

一 34. 727 

0. 068 

2. 187 

13. 468 

-0. 142 

2. 103 

(4.869) 

(0. 004) 

(0.532) 

(1. 121) 

(0.083) 

(0. 391) 

-29. 117 

0. 065 

1.971 

12. 191 

— 0. 231 

2.612 

(4.924) 

(0.004) 

(0.538) 

(1. 141) 

(0. 084) 

(0. 393) 


所以下一个步骤就是简单地对五个完整数据组中的每 
一个估计回归模型。通过使用 SAS 中的 BY 数据可以使执 
行变得更容易，从而避免指明五个不同的回归 模型： 



缺失数据 


proc reg data = college outset = estimate covout ； 

model gradrat = csat 1 enroll private stufac rrabrd; 
by_imputat ion 一； 

run ； 

这组数据告诉 SAS ， 要对由五个 _ imputation _ 值所定义的每 
一个次群体分别估计一个回归模型 。 outset = estimate 要求 
回归估计值被写入一个叫做 estimate 的新数据组，而 covout 
要求回归参数的协方差矩阵被包含进该数据组中。这使得 
在下一步骤中结合估计值显得容易。五个回归结果显示于 
表 5. 3中。很显然，每一个回归到另一个回归具有很大的稳 
定性，但也有值得注意的变异，归因于插补的随机成分。这 
些回归的结果用另一个叫做 MIANALYZE 的 SAS 程序，整 
合成一个单一估计值组。由下列数据 引起： 

proc mianalyze data = estimate ； 

var intercep csat lenroll private stufac rmbrd ； 


这个程序直接对包含有回归运作所产生的系数和相关统计 
量的数据组 estimate 来起作用。结果呈现于图 5. 3。 


Multiple-Imputation Parameter Estimates 


Variable 

Mean 

Std Error 

Mean 

intercept 

—32. 309795 

5. 639411 

csat 

0. 068255 

0. 004692 

lenroll 

1.916654 

0. 595229 

private 

12. 481050 

1. 367858 

stufac 

-0.169484 

0. 099331 

rmbrd 

2. 348136 

0. 670105 





Fraction 


t for HO ： 


Missing 

DF 

Mean=0 

Pr>|t| 

Information 

72 

—6. 596995 

<0. 0001 

0. 255724 

39 

14. 547388 

<0. 0001 

0. 356451 

110 

3. 220027 

0. 0017 

0. 206210 

40 

9. 124524 

<0. 0001 

0. 344151 

42 

-1.706258 

0. 0953 

0. 329284 

10 

3. 504132 

0. 0067 

0. 708476 


图 5. 3从 PROC MIANALYZE 得出的部分结果 
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图 5. 3中标示为“平均数”的字段包含表 5. 3中系数的 
平均数。使用方程 5. 1计算的标准误明显比表 5. 3中的标 
准误大，因为不同回归间的变化被加到回归内的变化了。然 
而，对于一些系数而言，有比其他系数更多的回归间的变化。 
在低端， lenroll 系数的标准误在图 5. 3中只比表 5. 3的标准 
误平均值大了约10%。在高端， rmbrci 的结合标准误较个体 
标准误平均值大了约70%。在表卩^中明显可以看出爪^以 
系数具较大的变异，其估计值为 L 66到 2. 95。 

图 5. 3中标示为 “t for HO : Mean = 0”的字段就只是每 
一个系数对于其标准误的比。紧接着的字段给出了用于从^ 
表中计算 f 值的自由度。这个数目与观察值的数目或变量 
的数目无关。虽然没必要知道自由度是如何计算的，但作者 
认为需要对该值做简短的解释。对于一个给定的系数，令[/ 
为回归模型中标准误平方的平均值。令 B 为回归间系数的 
方差。因缺失数据导致方差中相对的增加则被定 义为： 

r =- 

u 

其中 M 和之前相同，是用来产生估计值的完整数据组数目。 
自由度则被计 算为： 

df = ( M—mi + r - 1 ) 2 

因此，相对于回归内变化回归间变化越小的话，自由度越大。 
有时候，自由度将会远大于观察值的数目。但毋需担心，因 
为任何大于150左右的数目会造成一个实质上如同依标准 
正态分布的 f 表。然而，有些软件（包含 PROC MIANA - 
LYZE ) 可以产生一个不大于样本数目的、调整过的自由度 



78 


缺失数据 


(Barnard Rubin , 1999) 0 

最后一栏缺失信息比是因缺失数据导致每个系数有多 
少信息缺失的估计值，其范围比 lenroll 的低21%，高于 rm - 
brd 71%。 对于有着40%缺失数据的 rmbrd 而言，有高的缺 
失信息并不令人吃惊，但对于没有缺失数据的 private 及少于 
1%缺失数据的 stufac 而言，缺失信息则高得令人吃惊。要 
理解这点，必须要先知道一些知识。首先，对于每一个给定 
系数，其缺失信息量不只取决于该特定变量的缺失数据，也 
取决于与其相关的其他变量之缺失数据百分比。其次， MI - 
ANALYZW 程序没法知道每一个变量有多少缺失数据。相 
反，缺失信息估计值全然立足于回归内和回归间的相对变 
化。如果在回归间有大的变化，则暗示有较多缺失信息。有 
时候缺失信息比以7表示，用我们刚定义过的两个统计量 r 
和 d / 计算 ，即： 


八— r ~\~ 2 / ( c / 尸十 3) 
r — r +1 

同时我们要明确，在表中报告的缺失信息比可能只是一个受 
到大量抽样变化所影响的估计值。 

如前所述，多重插补的麻烦之一是它不会产生一个确定 
的结果。每次执行多重插补，都会得到有些微差异的估计值 
和相关的统计量。为了理解这点，我们看一下图 5. 4,其立足 
于由一个全新的数据扩增法运算所产生的5个数据组。虽 
然 lenroll 和 private 的缺失信息比之前的低很多，但大多数 
的结果与图 5. 3非常相似。 

当缺失信息比较高时，多于平常建议的三到五个完整数 
据组可能是有必要的，从而得到稳定的估计值。那么到底需 
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Multiple-Imputation Parameter Estimates 


Variable 

Mean 

Std Error 

Mean 

DF 

t for HO ： 

Mean=0 

Pr>|t| 

Fraction 

Missing 

Information 

intercept 

-32. 474158 

4. 816341 

124 

-6. 742496 

<0. 0001 

0. 192429 

csat 

0. 066590 

0. 005187 

20 

12.838386 

<0. 0001 

0. 489341 

lenroll 

2. 173214 

0. 546177 

2157 

3. 978955 

<0. 0001 

0. 043949 

private 

13. 125024 

1. 171488 

1191 

11. 203719 

<0. 0001 

0. 059531 

stufac 

-0. 190031 

0. 099027 

51 

-1. 918988 

0. 0607 

0. 307569 

rmbrd 

2. 357444 

0. 599341 

12 

3. 993396 

0. 0020 

0. 623224 


图 5. 4从 MIANALYZE 多重插补复制而得的输出结果 


要多少数据组呢？ 一个有着无限数目数据组的多重插补为 
完全有效(如同 ML )， 但具有限数目数据组的 MI 不能达到 
全然有效。 Rubin (1987) 证明了一个根据 M 个数据组的估计 
值与一个根据无限数目数据组的估计值，两者之相对有效性 
为 （1 + y / M ) -\其中 y 为缺失信息比。这暗示有五个数据 
组和50%的缺失信息，其估计程序的效率为91%。有10个 
数据组的话，效率提升至95%。同样，只有五个数据组得到 
的标准误比由无限数目的数据组所提供的标准误大5%。 
10个数据组产生的标准误比由无限数目的数据组所提供的 
标准误大 2. 5%。其结果是，即使有着50%的缺失信息，但 
五个数据组已表现得相当好了。将数据组数目扩大至其两 
倍，可以将过量的标准误减半，但此时的标准误已经很小就 
不需要再这样做了。 

在结束回归实例前，让我们比较图 5.4 的 MI 结果和表 
4.6 的 MI 结果。我们发现，系数估计值相当相似，标准误和 
^统计量也一样相当相似。毫无疑义，这两个分析会得岀相 
同的结论。 







f $ 義 ％ 


m 
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第1节 I Ml 中的交互作用和非线性 


虽然我们之前叙述过的方法对于估计有缺失数据的变 


量的主要效应有非常好的效果,但它们对于估计交互作用效 
果可能并不理想。例如，假设我们怀疑公立和私立大专院 
校， SAT 分数 ( CSAT ) 对于毕业率 (GR ADR AT ) 的效应有所 
不同。一个检验这个假设的方法(方法 1) 是取之前插补的数 
据，创造一个等于 CSAT 和 PRIVATE 乘积的新变量，并将 
这个新变量与已在模型中的其他变量一起纳入回归方程中。 

表 6. 1( 方法 1) 最左边的一栏显示了这种做法的结果。 
变量 PRIVACAST 是 CSAT 和 PRIVATE 的乘积。 p 值为 
0. 39,交互作用在统计上一点儿也不显著，所以我们可以总 
结为，在公立和私立机构间， CSAT 的效应没有改变。 


表 6.1 有交互作用项的回 归：三 种方法 


变量 

方法 1 

方法 2 

方法 3 

系数 

/>值 

系数 

户值 

系数 

pm 

INTERCEPT 

-39. 142 

0. 000 

一 48. 046 

0. 000 

— 50. 2 

0. 000 

CSAT 

0. 073 

0. 000 

0.085 

0. 000 

0.085 

0. 000 

LENROLL 

2.383 

0. 000 

1.932 

0.001 

1.950 

0.013 

STUFAC 

-0. 175 

0. 208 

—0. 204 

0.083 

-0. 152 

0.091 

PRIVATE 

20. 870 

0. 023 

35. 128 

0. 001 

36. 118 

0. 002 

RMBRD 

2. 134 

0. 002 

2.448 

0. 000 

2.641 

0. 003 

PRIVCSAT 

-0. 008 

0. 388 

-0. 024 

0.022 

-0. 024 

0. 024 
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这个方法的问题是，虽然多元正态模型精于插补新产生 
变量间线性关系的值，但它并不模型化任何其他高阶动差。 
因此，除非使用特殊技巧，不然插补值不会显示岀具有交互 
作用的证据。在这个例子中，交互作用两个变量中的其中一 
个 ( PRIVATE ) 是二分的，最自然的解法(方法 2) 是对私立大 
专院校和公立大专院校分别做系列的数据扩增法。这允许 
CSAT 和 GRADRAT 间的关系在这两个群体间有所差异，且 
允许插补值反映这个事实。一旦完成分别的插补，数据组会 
重新结合成一个单一数据组，乘积变量被创造，就可用该乘 
积变量来运行回归。表 6. 1中间部分的结果显示， PRI ¬ 
VATE 和 CSAT 间的交互作用在 0. 02程度上显著。我们可 
以更明确地发现， CSAT 对于毕业率的正效应，私立大专院 
校比公立大专院校小。 

第三个方法(方法 3) 对所有包含 CSAT 和 PRIVATE 的 
观察值的个案，在插补前创造乘积变量，接着再如同任何其 
他有缺失数据的变量一样插补该乘积变量，最后使用插补数 
据估计包含该乘积变量的回归模型。 

这个方法不如方法2那么吸引人，因为很明显乘积变量 
会有一个根本不是正态分布的，而在插补过程中却假设了正 
态性。然而，如同在表 6. 1右边部分所看到的，方法3的结 
果与方法2的结果非常接近，而且无疑比方法1更接近方法 
2的结果。 

方法3的结果令人放心，因为当交互作用中的两个变量 
都被以一量化量尺测量时，方法2并不可行。因此，如果我 
们希望估计一个有 CSAT 和 RMBRD 的模型，我们需要对具 
这两个变量数据的476个个案创造一个乘积变量。对于其 
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他剩余的826个个案，我们必须插补这个乘积变量作为数据 
扩增法过程的一部分。想估计一个牵涉具缺失数据的变量 
之非线性关系的模型时，就应该使用这个方法(或方法2,当 
其为可行时）。例如，如果我们想要估计一个有 RMBRD 和 
RMBRD 平方项两者的模型，则平方项必须被插补作为数据 
扩增法过程的一部分。这个需求会对在开始插补前就期待 
想要的函数形式的插补者造成一些负担。这也表示，我们必 
须从已被其他人使用的完全线性模型进行插补的数据中，谨 
慎地估计非线性模型。当然，如果一给定变量的缺失数据比 
例较小，我们选择用一个变量的原始形式插补它，随后再建 
构一个非线性的转换，可能会有效果。毫无疑义，对于1302 
个个案，只有两个个案有缺失数据的 STUFAC 变量(学生与 
教职员比例），在将两个插补值平方后，将 STUFAC 平方项 
放入回归模型是可以接受的。 
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第2节 | 插补模型和分析模型之适合性 


交互作用这个问题说明了一个在多重插补中更普遍的 
议题。比较理想的结果是，用来插补的模型与用于分析的模 
型一致，而且两者都正确地代表该数据。计算标准误基本公 
式(方程 5. 1) 取决于它的适合性和正确性。 

如果插补和分析的模型不同时会怎么样？这取决于差 
异的本质以及哪一个模型更加正确 (Schafer， 1997)。特别要 
关注的是那些在一个模型中为另一个模型特例的情况。例 
如，插补模型可以考虑交互作用，但分析模型可能不行，或者 
分析模型可以允许交互作用，但插补模型可能不行。这两个 
例子的其中任意一个，如果被较简单模型所施加的额外限制 
为正确的，那么我们已讨论过的在多重插补下的推论程序就 
是有效的。然而，如果额外的限制不正确，那么使用标准方 
法的推论可能就无效。 

对于模型选择较不敏感的方法也被提议用来估计多重 
插补下的标准误 (Wang & Robins， 1998; Robins &- Wang, 
2000)。 很明显，当插补和分析的模型不兼容或者当两个模 
型都不正确时，这些方法给予有效的标准误估计值。然而， 
在任一阶段的不正确模型都仍有可能产生偏误的参数估计 
值，而且备选方法需要目前尚不能获取的专业软件。 
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第3节 | 插补中因变量所扮演的角色 


因为 GRADRAT 是包含在数据扩增法过程中的变量之 
一，于是因变量暗中被用来插补自变量的缺失值。这样合理 
吗？它不会导致产生虚假的大的回归系数吗？答案是这不 
仅可行，而且为了要得到无偏误的回归系数估计值,这甚至 
是必要的。决定性的插补，使用因变量以插补自变量的缺失 
值，的确可能产生虚假的大的回归系数，但将一个随机成分 
引入插补过程中，就可以抵消这个倾向并给予我们近似反映 
无偏误的估计值。事实上，将因变量排除于插补过程外，对 
于那些有缺失数据的变量而言，至少会倾向产生虚假的小的 
回归系数 （ Landerman，Land Pieper ， 1997)。在大专院校 
的例子中，如果 GRADRAT 不被用于插补，就会有大部分缺 
失数据的 CSAT 和 RMBRD ， 两者的系数分别会降低约 
25%和20%。同时，只有5个缺失值的 LENROLL 的系数 
会变大65%。 

当然，将 GRADRAT 纳人数据扩增法过程中也意味着 
GRADRA 丁的所有缺失值被插补了。有些学者就反对对因 
变量插补缺失值 （Cohen & Cohen ， 1985)。鉴于此项建议， 
我们需要在开始插补前，就去掉任何在因变量上有缺失数据 
的个案。这个建议有一个正当的基本理由，但它只在一些特 



第 6 章多重 插补: 复杂化 


87 


别的例子中适用。如果因变量有缺失数据但所有的自变量 
没有缺失数据，则(不论线性或非线性的）回归模型之最大似 
然估计没有使用具缺失数据的个案的任何信息。因为 ML 
是最合适的，在多重插补下插补缺失个案并不会获得任何好 
处。事实上，虽然诸如此类的插补不会导致任何偏误，但其 
标准误会比较大。然而，当自变量上也有缺失数据时，情况 
就不同了。因变量上有缺失数据的个案，确实有一些可以用 
于回归系数估计的信息，虽然信息量可能不是很大。结果 
是，在因变量和自变量两者皆有缺失数据的典型例子中，因 
变量上有缺失数据的个案不应该被删除。 
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第4节 I 在插补过程中使用额外的变量 


如之前所提到的，用于数据扩增法的变量组确实应该包 
含那些将在计划分析中使用到的所有变量。在大专院校的 
例子中，我们也纳入一个额外变量 ACT (平均 ACT 分数），因 
为其与有着大量缺失数据的变量 CSAT 高度相关。目的是 
要改善 CSAT 的插补以得到它更可靠的回归系数的估计值。 
如果我们包含其他与 CSAT 相关的变量，我们会做得更好。 

一个相对较简单的例子就能阐明额外预测变量的好处。 
假设我们想要估计1302所大专院校的 CSAT 平均分数，我 
们知道，有523个个案有 CSAT 缺失数据。如果我们使用有 
CSAT 值的其他779个个案计算平均数，我们会得到表 6. 2 
第一行的结果。第二行则显示用多重插补及变量 ACT 的估 
计平均数(及标准误）。平均数降低了 9个点，而标准误降低 
了 13%。虽然 ACT 和 CSAT 的相关性约为0.90,但它作为 
一个预测变量的有用性，却被523个缺失 CSAT 的个案中只 
有226个个案有 ACT 的观察值这个事实所影响了。如果我 
们加入一个额外的变量 PCT 25( 班上前25%的学生的比例）， 
我们的标准误会进一步减少。 PCT 25 与 CSAT 的相关性约 
为 0. 80,且对于额外的240个 CSAT 和 ACT 两者皆缺失数 
据的个案， PCT 25 更容易获取。 
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表 6.2 不同变置用于插补中所得的 CSAT 之平均数(及标准误) 


用于插补中的变量 

平均数 

标准误 

缺失信息％ 

没有 

967. 98 

4. 43 

40. 1* 

ACT 

956. 87 

3. 84 

26.5 

ACT , PCT 25 

959. 48 

3. 60 

13.3 

ACT , PCT 25, GRADRAT 

958. 04 

3. 58 

11.3 


注： * 缺失数据的实际百分比。 


表 6. 2最后一行加人了与 CSAT 相关性约为 0. 60的 
GRADRAT ， 但只能利用17个未被 PCT 25 或 ACT 所涵盖的 
个案。丝毫不岀人意料，标准误的减少相当小。当作者试着 
引入图 5. 4中回归模型的所有其他变量时，标准误事实上变 
得更大。这可能是由于其他变量与 CSAT 的相关性低很多， 
然而因为需要估计他们的回归系数以预测 CSAT ，所以引进 
额外的变量。如同其他预测问题一样，当粗劣的预测量被加 
人模型时，插补可能会变得更糟。 


90 


缺失数据 


第5节 | 多重插补的其他参数方法 


如我们已经看到的，在广泛的数据类型和缺失数据形态 
下，多变量正态模型下的多重插补是相当简单的。作为处理 
缺失数据的一个惯例方法，这可能是当前最好的方法。然 
而，有数个备选方法在某些情况下可能更为可取。 

多元正态模型最明显的局限性之一是，它只是被设计用 
来插补量化变量的缺失值。如我们已经看到的，类别变量通 
过使用一些临时的方法来修正。然而，有时候你可能想做得 
更好。对于在插补过程中所有变量都是类别变量的情况下， 
有一个更好的模型，即无限制的多项模型（其在列联表中每 
一个单元格都有一个参数)或者一个允许在多项参数上有所 
限制的对数线性模型。在第4章中，我们讨论过这些模型的 
ML 估计。 Schaf er (1997) 也证明了这些模型如何能被使用 
以作为数据扩增法的基础，从而产生多重插补，而且他也开 
发了一个叫做 CAT 的免费软件程序以执行这个任务（参见 

http :// www . stat . psu . edu / 〜 jls /)。 

当数据包含类别的和量化变量的组合时，另一个 Schafer 
程序 ( MIX ) 使用数据扩增法以产生插补。这个方法假设类 
别变量有一多项的分布，并在变量上可能有对数线性的限 
制。在由类别变量所创造出的列联表中的每一个单元格里， 
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量化变量被假设有一个多变量正态分布。这些变量的平均 
数可以在各单元格变化，但协方差矩阵则被假设为固定的。 

在作者写这本书时， CAT 和 MIX 还只能从 士 PLUS 统 
计软件包的程序库中获取，但它们之后可能会推岀独立的版 
本。在之前的两个例子 （ CAT 和 MIX ) 中，基准模型包含的 
参数远远超过一般多元模型所包含的参数数目。因此，这些 
方法的有效运用很明显需要更多来自插补执行者的知识及 
创造，以及更大的样本数以达到稳定的估计值。 

如果数据对于一个单一类别变量有缺失， logistic 回归模 
型下的多重插补就相当容易 （ Rubin ， 1987)。假设在编码为 
五个类别的婚姻状态数据有缺失，且有数个可能的连续的和 
类别的预测变量。为了插补，我们使用具完整数据的个案， 
以一个预测量的函数，对婚姻状态估计一个多项的 logit 模 
型。这将会产生一组系数估计值^及一个协方差矩阵估计 
值 f (^)。 为了考虑参数估计值间的变异，我们从一个平均 
数为^且协方差矩阵为的正态分布中随机抽取参数 
估计值 ( Schafer 给出了如何有效实行这种操作的实用建议）。 
对于有缺失数据的每一个个案，抽取的系数值和被观察到的 
协变量值被代入多项的 bgit 模型以产生落入5个婚姻状态 
类别的预测概率。根据这些预测概率，我们随机抽取1个婚 
姻状态类别，作为最终的插补值。〔 12 ]这整个过程被重复多次 
以产生多个完整数据组。当然，一个二元变量只是这个方法 
的一个特殊例子。这个方法可被用于许多其他的参数模型， 
包含泊松回归及参数的失效时间回归。 
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第6节 I 无参数及部分参数方法 


相对于我们刚考虑过的全然参数方法，在相对不严格假 
设的情况下，有人提议用另外几种方法来做多重插补。在这 
个部分，作者将考虑一些比较有代表性的方法，但需要注意的 
是，这些方法中几乎每一个都会存在许多变化情况。虽然当 
数据缺失为单调形态时，这些方法通常可以毫无困难地被普 
遍化到具多元变量的情况(在第4章已叙述过了），但这些方 
法在只有一个单一变量有缺失数据的情况下被运用最为自 
然。关于该内容可以参考 Rubin (1987) 有关单调广义化的内 
容。当缺失数据不服从一个单调形态时，这些方法有时可以 
被使用，但在这样的设定下，它们明显缺少坚实的理论基础。 

当在参数和非参数方法间选择时，通常要在偏误与抽样 
变异间有一个权衡。参数方法倾向于有较少的抽样变异，但 
如果参数模型对于所关注的现象并不是一个良好的近似反 
映时，它们可能会导致有偏误的估计值。非参数模型在许多 
情况下可能相对不容易出现偏误的情况，但估计值通常有更 
多的抽样变异。 


热卡方法 


最广为人知的非参数插补方法，是美国人口调查局经常 
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使用的、同时也供公众使用的数据组插补值的“热卡”方法。 

其基本理论是，我们想要插补某一特别变量 Y 的缺失 
值，该变量有可能是量化的或类别的。我们需要寻找一组与 
y 相关的、(没有缺失值的)类别变量 x 。 我们根据 x 变量制 
作一个列联表。如果在该列联表某个特定的单元格中个案 
有缺失 y 值，我们取在同一个单元格中的一个或多个无缺失 
的个案，并用它们的 Y 值来插补这个缺失的 Y 值。 

很明显，该方法可能会比较复杂，而且最重要的问题是 
如何选择“捐赠者”值以指派给有缺失值的个案？此外，捐赠 
者个案的选择应稍微被随机化从而避免偏误。这自然地导 
致多元回归，因为任何随机化方法可能不止一次地被运用以 
产生这个缺失值的不同的插补值。诀窍在于要做到随机化， 
使所有自然的变异都能被保留。为了达到这个目的 ， Rubin 
提出了一个他创造的近似反映贝叶斯自举法 （ Rubin ， 1987； 
Rubin Schenker , 1991)。下面具体介绍如何使用这种方 
法。假设在列联表一特定的单元格中有 m 个个案于 Y 有完 
整数据且 no 个个案在 Y 有缺失数据。根据这些 步骤： 

(1) 从有完整数据的 m 个案组中，取一个 m 个案的随 
机样本(有取 代）； 

(2) 从这个样本中，取一个 no 个案的随机样本(有取 代)； 

(3) 指派 tzo 个的观察值给有缺失 Y 数据的个 个案； 

(4) 对列联表中每一个单元格重复步骤1到3。 

当运用到列联表中所有的单元格时，这四个步骤会产生 

一个完整的数据组。对于多重插补，整个过程会被重复多 
次。在每一个数据组中都执行了所要的分析，用的同样是多 
变量正态插补的公式，同时所得结果加以汇总。 
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虽然我们似乎可以忽略步骤1而直接从有完整数据的 
m 个案中选取 no 个捐赠者个案，但这无法估计标准误产生 
足够的变异。其他的变异是因为步骤2抽样用的是替代的 
方法。 

预测均 数匹配 

热卡插补一个主要的吸引力在于，所有插补值都是实际 
被观察到的值。因此，没有“不可能出现的”或超岀范围的 
值，且易于保存原分布的形状。其缺点为所有的预测变量必 
须是分类别的(或被当做如此），因此对可能预测变量的数目 
进行了严格的限制。为了去除这个限制， Little (1988) 提岀了 
一个叫做预测均数匹配的部分参数方法。如同多变量正态 
参数方法一样，这个方法开始也基于有完整数据的个案，用 
Y 对一组变量做回归，再由得到的回归模型产生有缺失和没 
缺失数据个案的预测值。接着，对于有缺失数据的每一个个 
案，我们找一组有完整数据的个案，其 Y 的预测值与有缺失 
数据个案的 Y 预测值是“接近”的。从这组个案，我们随机选 
择一个个案的 Y 值捐赠给该缺失个案。 

对于单一变量 Y ， 可以直接将“接近”定义为预测值间的 
绝对差异。然而，接下来我们必须决定多少个接近的预测值 
应被包含进每一个缺失个案的捐赠库中？或相同地，构成可 
能的捐赠值组的接近的截略点应为何？如果选取了较小的 
捐赠库，在估计值中就会有较多的抽样变异性。另一方面， 
太大的捐赠库则容易导致可能的偏误，因为许多捐赠者可能 
与受援者不相像。为了处理这个模棱两可的情况， Schenker 
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和 Tayl 0 r (1996) 提出了一个“适合的方法”，根据接近预测值 
的完整个案的“密度”，变化每一个缺失数据个案捐赠库的大 
小。他们发现，该方法比其他有固定的3个或10个捐赠库 
的方法稍微好些。然而，这三个方法间的差异太小以至于该 
方法几乎不值得我们去花额外的计算成本。 

执行预测均数匹配时，因为回归系数只是真实系数的估 
计值，因此做些调整也是必要的。和参数的例子一样，这可 
以通过在计算每一个插补数据组的预测值前，先从它们的后 
验分布中随机抽取一组新的回归参数来完成。以下给出具 
体的操作 步骤： 

(1) 对于没有缺失 Y 数据的 m 个个案回归 Y 于 X ( —协 
变量的向量），产生回归系数 6( —个 AX 1向量）及残差方差 
估计值 s 2 ; 

(2) 从一个(假设不提供信息的先验的)残差方差的后验 
分布中进行随机抽样。可通过计算 （m ~ k ) s 2 / X 2 来完成，其 
中 X 2 代表从一个有 m —々个自由度的卡方分布中随机抽取 

而得。令心」为第一个这样的随机 抽取； 

(3) 从回归系数的后验分布中随机抽取系数值。可通过 
从一个有着平均数为6及协方差矩阵 ( X r X )- i 的多变量 
正态分布抽取所完成，其中 X 为一个 X 值的^一 々矩阵 。此 
外，酐 1] 为第一个这样的随机抽取。 

有关如何执行的实用建议参见 Schafer (1997) 0 

对于每一组新的回归参数，所有个案产生预测值。接着 
对于每一个 Y 有缺失数据的个案，我们根据预测值建构一个 
捐赠者库，并随机从该捐赠库中选择一个 Y 的观察值。虽然 
计算可能会变得相当复杂，但这个预测均数匹配法可以被广 
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义化至超过一个 Y 变量有缺失数据的情况 ( Little ，1998) 。 

经验残差抽样法 

在数据扩增法中，残差值从一个标准正态分布抽样而 
来，并且残差值接着被加到预测回归值中，以得到最终的插 
补值。我们可以通过在线性回归所产生的实际残差组中做 
随机抽取，来修正这个方法，从而使它较少依靠参数假设。 
这可以产生插补值，其分布更像该被观察到的变量的分布 
( Rubin , 1987)，虽然这个方法仍有可能得到落于允许区间外 
的插补值。 

如同用其他方法进行多重插补一样，存在与正确执行这 
个方法涉及许多相关的重要的细节问题。和之前一样，令 Y 
为有缺失数据的变量，用 m 个有观察数据的个案来插补如 
个个案。令 X 为没有缺失数据的 m 个个案之 A X 1变量向 
量(包含一个常数项）。我们由执行前述的三个步骤开始，以 
获得 Y 对于 X 的线性回归，并且从参数的后验分布中产生随 
机抽取值。接着我们增加下列 步骤： 

(4) 根据步骤1中的回归估计值，对有缺失数据的个案 
计算标准化的 残差： 

ei = (yi — bxO / s 2 (I — k / n \) 

• # ' • 

(5) 从步骤 4 计算得到的 m 个残差中抽取一个有 个 
值的简单随机样本(有替换）。 

(6) 对于有缺失数据的个个案，计算 Y 的插补值 ，如： 


yi = bi\]xi + 5[ i ]^- 
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其中代表步骤5中抽取的残差，而 和扣 13 是从参 
数的后验分布的第一次随机抽取得到的值。 

这6个步骤产生一个完整的数据组。为了得到额外的 
数据组，简单地重复步骤2到6即可（除了不应该被重复的 
步骤4以外）。 

R u bin (1987) 曾经解释过，这个方法可以很容易被延伸 
至数个变量上有着单调缺失形态的数据组。当其为缺失时， 
每一个变量使用所有被观察到的变量作为预测量来进行插 
补。这个经验残差方法也可以被修正以考虑插补值中的异 
方差性 （Schenker & Taylor , 1996)。对于每一个插补的个 
案，残差库被限制为那些 Y 预测值与缺失数据个案的 Y 预测 
值接近的被观察到的个案。 

实例 

让我们对大专院校数据的一个次集合试试看部分参数 
方法。对1272所大专院校， TUITION 是全部都被观察到的 
(为了简便，我们应该去掉在该变量上有缺失数据的30个个 
案）。在这1272所大专院校中，只有796个报告 BOARD ， 即 
各大专院校的年度平均食宿费用。使用 TUITION 作为一个 
预测量，我们的目的是要对其他476所大专院校插补 
BOARD 的缺失值，并且对所有1272所大专院校估计 
BOARD 的平均数。 

首先，我们运用先前使用过的方法。对于有完整数据成 
列删除的796所大专院校， BOARD 的平均值为2060美元， 
其标准误为 23. 4。对 TUITION 和 BOARD 运用 EM 运算 
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法，我们得到 BOARD 的平均数为 2032( 但没有标准误）。 
BOARD 和 TUITION 间的 EM 相关性估计值为 0. 555。使 
用数据扩增法、多变量正态模型下的多重插补产生的 
BOARD 的平均数为2040,估计标准误为 21. 2。 

因为 BOARD 高度右偏，故有理由怀疑多变量正态模型 
可能不是很恰当。相当多由数据扩增法所插补的值比最低 
的被观察值531小，且有一个插补值是负的。或许我们可以 
通过在经验残差上抽样从而做得更好。对于有 TUITION 和 
BOARD 两者数据的796个个案，回归 BOARD 于 TUTION 
的普通最小二乘 ( OLS ) 回归方 程为： 

BOARD = 1497.4 + 67. 65 X TUITION /1000 

其均方根差估计为 542. 6。这个回归方程计算得到的标准化 
残差由796个个案计算所得。 

估计得到的回归参数被用于从参数的后验分布中做五 
次随机抽取，如同在步骤2和步骤3中（假设一个不提供信 
息的先验分布）。被抽取的 值为： 


截距 

斜率 

均方根差 

1536. 40 

66. 6509 

531. 900 

1503. 65 

71.5916 

552. 708 

1501. 61 

66. 9756 

554. 800 

1486. 84 

66. 9850 

548. 400 

1504. 23 

61. 2308 

534. 895 


为了创造第一个完整数据组，476个残差值从796个个案中 
被随机有替代的抽取而产生。这些标准化残差被任意地指 
派给 BOARD 有缺失数据的476个个案。令£:为某一给定 
个案的指派残差， BOARD 的插补值产生 如下： 
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BOARD = 1536. 40 + 66. 6509 X TUITION / 1000 
+ 531. 90 XE 

对四个剩余的数据组重复这个过程，并于每一个步骤中，在 
残差上有新的抽样，回归参数有新的值。 

一旦产生五个数据组，就对每一个数据组计算其平均数 
和标准误，并使用标准误的方程 5.1 来计算结果 。 BOARD 
的最终平均数估计值为2035,估计标准误为 20. 4,相当接近 
基于正态分布的多重插补。 

现在，让我们尝试预测均数匹配。根据从 BOARD 对于 
TUTION 的 OLS 回归的系数，作者从参数的后验分布中进 
行五次新的随机 抽取： 


截距 

斜率 

均方根差 

1465. 89 

67. 8732 

557. 531 

1548. 98 

64. 5723 

539. 952 

1428. 82 

67. 3901 

512. 381 

1469. 34 

67. 3750 

550. 945 

1517. 92 

66. 1926 

534. 804 


对于第一组参数值，作者对所有观察到的及缺失的个案 
推测 BOARD 的预测值。对于每一个 BOARD 有缺失数据的 
个案，作者找到了预测值最接近缺失个案预测值的五个个 
案。同时随机选择这五个个案中的其中一个，并指派它被观 
察到的 BOARD 值作为插补值给缺失的个案。对五组参数 
值的每一组都重复这个过程，以产生五个完整的数据组（数 
据组数目与被观察到的个案数目匹配到每一个缺失个案的 
数目相同只是巧合罢了）。接着对每一个数据组计算平均数 
和标准误并用通常的方法结合结果。 BOARD 的结合平均数 
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为2028,其估计标准误为 23. 0。 

所有四个插补方法都产生相似的平均数估计值，且所有 
都显著低于根据成列删除而得的平均数。 Schenker 和 Tay - 
lor (1996) 建议，虽然参数和部分参数插补方法倾向产生相似 
的平均数结构(包含回归系数）的估计值，但它们可能对于插 
补值的边际分布产生更加不同的结果。他们的模拟研究显 
示，对于主要关注点是边际分布的应用，部分参数模型有一 
个明显的优点。当被用来产生估计值的回归以许多方式被 
错误设定时，更是如此。 
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第7节 | 连续的广义回归模型 


数据扩增法的吸引力之一是，不像其他刚讨论过的参数 
或半参数方法，它可以很容易地处理有缺失数据的、有大量 
变量的数据组。遗憾的是，这个方法需要对所有变量指明一 
个多变量分布，而当变量有着多种类型的时候（例如，连续 
的、二元的及计数数据），这并不是件容易的事。有另一种方 
法被提议用来处理有着数种不同变量类型的大的复杂数据 
组之缺失数据。不拟合一单一综合模型（如多变量正态），而 
是对每一个有缺失数据变量分别指明一个回归模型。这个 
方法涉及在数个回归模型中循环，在每一个步骤插补缺 
失值。 

虽然这个方法非常吸引人，但它却不像我们已讨论过的 
其他方法那样具有很强的理论上的有效性。在本书写作之 
时，详细的论述只有 Brand (1999 ) 、 Van Buuren 和 Oudshoorn 
以及 Raghunathan 、 Lepkowski、Van Hoewyk 和 Solenberger 
(1999) 等人未发表的报告。在 Raghunathan 等人关于此方 
法的论述中，可利用的模型包含正态线性模型、二元 logistic 
回归、多项 logit 回归及 poisson 回归。回归模型以一个特定 
顺序来估计，从有着最少缺失值的因变量进行到有最多缺失 
数据的因变量。我们用 Yi 至 h 来表示这些变量，并令 X 表 
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示没有缺失数据的该组变量。 

第一个“回合”的估计进行如下。回归匕于久，并用相 
似于“对于多重插补的其他参数的方法”部分已叙述过的、对 
多项的 logit 模型产生插补值的方法以产生插补值。可以对 
插补值设定边界和限制。接着，回归 Y 2 于久和 h ，包含 h 
的插补值，并且产生的插补值。然后，回归 Y 3 于 
和含两个 Y 的插补值），继续直到所有回归都被估计过 
了。第二个和后续的回合重复这个过程，但现在每一个变量 
要对所有使用从前面步骤产生的插补值的其他变量做回归。 
这个过程继续至某一个预先指定的回合数目或直到岀现稳 
定的插补值。一个可以完成这些任务的 SAS 的宏命令可参 
见 http ：// www . isr . umich . edu / src / smp / ive 。 

Van Buuren 和 Oudshoorm 把他们的这个方法命名为基 
于链式方程的多重插补，而且他们开发了 S - PLUS 程序以执 
行它(参见 http ：// www . multiple - impuation . com /) 。他们的 
方法和 Raghunathan 等人的方法的主要差异在于不包含泊 
松分布，但对于插补值的随机抽取方法却允许有更多的选择 
(包括参数和部分参数）。 
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第8节 | 线性假设检验和最大 

似然比检验 


我们所使用的多重插补的统计推论方法一直都非常简 
单。对于一个给定参数，该估计值的标准误通过方程 5.1 来 
计算。这个标准误接着被插人立足于正态近似反映的传统 
方程中，以对某些关注的假设产生一个置信区间或一个 f 统 
计量。有时候，这样并不足够。通常我们想要对参数组检验 
假设，例如，两个参数相等或数个参数全部都等于0。当我们 
对一组虚拟变量估计数个系数时，这些种类的假设显得特别 
重要。此外，有必要通过比较一个模型与另一个较简单的模 
型来计算似然比统计量。当执行多重插补时，完成这些任务 
并不是那么容易。 Schaf er (1997) 叙述过三种不同的方法，但 
没有一种是完全令人满意的。作者在此简短地叙述这三种 
方法，同时也会在下一个部分给岀一个实例。 

使用结合协方差矩阵的 Wald 检验 

当没有缺失数据时，一个关于多元参数推论的普遍方法 
为，根据参数估计值及其估计的协方差矩阵来计算 Wald 卡 
方统计量。这里有简单的回顾，但遗憾的是，需要矩阵代数 
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学。假设我们想要估计一个/> X 1参数向量卩。我们有估计 
值$和估计的协方差矩阵 C ， 我们想要检验一个表达为 
L (3= c 的线性假设，其中 L 为一个 rXp 的常数项矩阵，且 c 
为一个 rXl 常数项向量。例如，如果我们想要检验 p 的前两 
个元素彼此相等这个假设，我们需要 L = [1 一 1 0 0 0… 0] 
及 c = 0。 Wald 检验的计算 如下： 

W = (Lp - c )’[ LCL ’]( L 谷一 c ) ， [6.1] 

其在零假设下，有一个自由度为 r 的近似反映卡方分布 。 DC 
现在我们广义化这个方法到多重插补的情形中。不用 
P ，我们可以使用€，即横跨数个完整数据组的估计值之平均 
数，也 就是： 

其次我们需要一个结合样本内变异与样本间变异的协变量 
矩阵的估计值。令 G 为在数据组&中的参数估计的协方差 
矩阵，且令己为那些横跨 M 个数据组矩阵的平均。样本间 
变异被定 义为： 

协方差矩阵的结合估计值则为： 

C = C +(1 + 1/ M)B 

这只是方程 5.1 的没有平方根的一个多变量广义化。我们 
用包含^和己的方程 6. 1，来替代 g 和 C ， 以得到我们的检验 
统计量。 

遗憾的是，在典型的 M 小于或等于5的例子中，这起不 
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到好的作用。在诸如此类的例子中， B 是一个对于协方差矩 
阵相当不稳定的估计量，且造成的 W 的分布不是卡方。 
Schafer (1997) 给予一个对协方差矩阵更加稳定的估计量，但 
这需要不合理的假设，即假设对于$的所有元素，缺失信息 
比都相同。然而，有些模拟研究显示，即使当假设被违反 
时，这个备选方法仍行得通。这个方法已被纳入 SAS 程序 
MI ANALYZE 中 。 

似然比检验 

如果感兴趣的模型通过最大似然来估计且没有缺失数 
据，通常通过计算似然比卡方检验来执行多参数检验。这个 
程序相当简单。令&为强加假设时模型的对数似然，并令 h 
为放松假设时模型的对数似然。似然比统计量即为 L = 

2(Zi — /o) o 

与之前一样，我们的目的是要将这个广义化到多重插补 
中。第一个步骤是要对 M 个完整数据组中的每一个执行想 
要的似然比检验。令 L 为横跨 M 个数据组的似然比卡方的 
平均数，这是较容易的部分。接下来是比较困难的部分。为 
了得到那些卡方，必须要在每一个数据组中估计两个模型， 
即有强加假设的模型和放松假设的模型。令为强加假设 
时， M 个参数估计值的平均数，且令^为放松假设时， M 个 
参数估计值的平均数。在每一个数据组中，我们接着计算一 
个参数值被限制为的模型的对数似然，且再次计算一个 
参数值被设为 h 的模型的对数似然（这明显需要能够计算 
和报告使用者指定参数值的对数似然比的软件）。根据这两 
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个对数似然，在每一个数据组中计算一个似然比卡方。令 L 
为这些横跨 M 个样本的卡方统计量的平均数。 

最终的检验统计量则为 L / ^ + {^\) (L — L )) ，其 

中 r 为假设所强加的限制数目。在零假设下，这个统计量有 
着近似反映分子自由度为 r 的 F 分布。分母自由度的计算 
有点困难。令£ = 〆 ]^— 1) 且令 

fM + l\fL — L\ 

q= 

如果 f >4,则 d d f . = 4+(广一4)[1 + (1 — 2/ O / g ] 2 。 如果 
f < 4,则 d d . f . = t(l + l / r)(l + \/ q ) 2 / 2 0 

结合卡方统计量 

Wald 检验和似然比检验，两者都缺乏前面使用的单一 
参数方法的简单性。而且它们需要有专业选项及输出的分 
析软件，这是我们通常都尽量避免的。 

作者现在讨论一个容易从标准输出所计算的第三个方 
法，但该方法可能不像另外两种方法那样精准 （ Li ， Meng , 
Raghunathan & Rubin , 1991)。该方法所需要的仅是计算在 
M 个完整数据组中，每一个数据组的传统的卡方统计量 
( Wald 或似然比），以及相关的自由度。 

令4为数 据组々 中有着自由度为 r 的卡方统计量，令七 
为 M 个数据组的这些统计量的平均数，且令4为 M 个数据 
组的卡方统计量的平方根的样本方差，也 就是： 

4 = (山 -孑 )2 
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被提议的检验统计 量为： 

D = d 2 / r -( l - l / M - l ) s 2 d 

= l + (l + l / iVf - l )4 

在零假设下，这个统计量有着近似反映分子自由度为 r 的 F 
分布。分母自由度近似 反映： 

/ M-l W H - M -\ 2 

\ ^/m ){ ^ ( M + 1 / M ) s 2 d ) 

作者已经写了一个 SAS 的宏命令 （ COMBCHI ) 以执行这些 
运算和计算一个 p 值。该命令可以参见作者的网站 （ http :// 
www . ssc . upenn . edu / 〜 Allison ) 。你只需要键人数个卡方值 

以及自由度，宏命令就会报告一个值。 
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第 9 节 I Ml 实例2 


让我们考虑另一个详细的经验实例来说明本章所讨论 
过的某些技巧。数据组来自1994年综合社会调查，共有 
2992名受访者 （Davis & Smith , 1997)。我们的因变量为 
SPANKING ， 一个对于“有时候管教一个小孩责打是必要的。 
你强烈赞成、赞成、反对或强烈反对”这个问题的回答。如同 
问题本身所提示的，有四个可能的依序的答案，被编码为1 
至4的整数。这个问题被设计作为只对随机的2/3的样本 
施行的模块的一部分。因此，有1015个完全随机缺失的个 
案。此外，另有27个缺失个案，其回答被编码为“不知道”或 
“没有回答”。 

我们的目的是要估计一个依序的 logistic (累进的 logit ) 模 
型 ( McCullagh ， 1980)，其中通过下列变量预测 SPANKING ： 

AGE 受访者的年龄以岁计算，从18到89。缺失6个个案。 

EDU 受教育年数的数目。缺失7个个案。 

INCOME 家庭收人，以21个区间类别的终点编码，以千 
元计算。缺失356个个案。 

FEMALE 1 = 女性; 0 =男性。 

BLACK 1 =黑人;0 =白人，其他。 

MARITAL 婚姻状态的5个类别。缺失1个个案。 
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REGION 9个区域类别。 

NOCHILD 1 =没有 小孩; 其他为0。缺失9个个案。 

一个额外的变量 NODOUBT 需要更进一步的解释。受 
访者被问到他们对上帝的信仰，有6个回答类别，从“我不信 
上帝”到“我知道上帝真的存在而且我对于这点没有疑惑”。 
有62%的受访者的典型回答是“我知道上帝真的存在而且我 
对于这点没有疑惑”。然而，如同责打那个问题一样，这个问 
题只是问卷模块的一部分，只随机询问1386个受访者中的 
一部分。因此，根据设计有1606个缺失个案。其余60个缺 
失是因为他们说“不知道”或“没有回答”。如同这里所使用的， 
如果受访者“没有疑惑”变量被编码为1，反之则会被编码为0。 

大多数的缺失数据在3个变量 以上： SPANKING 、 
NODOUBT 和 INCOME 。 样本中有5个主要的缺失形态，占 
了 96%的受 访者： 

771个个案在任何变量上都没有 缺失； 

927个个案只有 NODOUBT 缺失； 

421个个案只有 SPANKING 缺失； 

89个个案只有 SPANKING 缺失； 

509个个案 SPANKING 和 NODOUBT 缺失； 

421个个案 NODOUBT 和 INCOME 缺失。 

如往常一样，数据分析最简单的方法是成列删除，其只 
使用26%的原始样本。为了指明模型，作者对婚姻状态类别 
创造虚拟变量 ： NEVER (从未结婚）、 DIVSEP (离婚或分居） 
及 WIDOW (鳏寡），以已婚者为参照组。对区域也生成三个 
虚拟变量（以西方作为省略的类别）。 [14] (由 SAS 中 PROC 
LOGISTIC 所产生的)结果显示于表 6. 3的第一栏中。黑人、 
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。一 00 .0 VA. *** * 10 .0 V A. ** * 9000VA. * " 坊 


连续回归 
(缺失数目于 
SPANKING ±) 

-0. 489(0. 094 广 

0. 685(0. 135) … 

—0. 0047(0. 0022)* 

—0. 068(0.016)*** 

0. 438(0. 121)** 

—0. 091(0. 123) 

0. 0040(0. 0031) 

一 0.488(0. 136)*** 

-0. 159(0. 128) 

0. 357(0. 121)** 

-0. 071(0. 151) 

-0. 184(0. 126) 

-0.215(0. 174) 

连续回归 

一 0. 449(0. 098)*** 

0. 693(0. 119)*** 

-0. 0042(0. 0027) 

—0. 073(0.019)** 

0. 455(0. 156” 

-0. 141(0. 164) 

0. 0031(0. 0032) 

-0. 519(0. 156)** 

一 0. 228(0. 149) 

0. 262(0. 129) • 

一 0. 036(0. 173) 

-0. 141(0. 128) 

-0. 116(0. 177) 

正态数据扩增法 

-0. 481(0. 089)*** 

0. 756(0. 117)*** 

一 0. 0052(0. 0020)* 

-0. 061(0.016)*** 

0. 465(0. 120)** 

—0. 109(0. 112) 

0. 0043(0. 0032) 

-0. 444(0. 125)*** 

-0. 161(0. 136) 

0. 323(0. 156)* 

一 0. 075(0. 148) 

-0. 203(0. 150) 

-0. 244(0. 150) 

成列删除 

-0. 355(0. 141)* 

0. 565(0.218)** 

-0. 0036(0. 0033) 

—0. 0055(0. 027) * 

0. 454(0. 147)** 

-0. 205(0. 199) 

0.010(0. 005)* 

-0. 712(0. 219) - 

一 0. 122(0. 203) 

0. 404(0. 191)** 

-0. 046(0. 238) 

-0. 191(0. 194) 

0. 148(0. 298) 


FEMALE 

BLACK 

INCOME 

EDUC 

NODOUBT 

NOCHILD 

AGE 

EAST 

MIDWEST 

SOUTH 

NEVMAR 

DIVSEP 

WTDOW 


{邮拌雎岗}拽 *: 担頦肤 slll iM ?301 S 拍醃 ozids 展 ®eVo 懈 
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较老的受访者及对于上帝“没有疑惑”的受访者有可能赞同 
责打小孩有时是必要的。女性及受更多教育的受访者则可 
能比较反对。也有大的区域性差 异:来 自南方的受访者对于 
责打更加赞同，而来自东北的则更加反对。另一方面，没有 
证据显示收人、婚姻状态或有小孩等有任何效应。 

因为依据设计有84%观察值有缺失数据(且因此为完全 
随机的），成列删除应该产生近似反映无偏误的估计值。然 
而，损失几乎3/4的样本是要付出重大代价的，而这个代价 
若使用多重插补则是可以避免的。为了执行 MI， 作者首先 
使用第5章叙述过的多变量正态模型下的数据扩增法。执 
行之前，先删除婚姻状态有缺失值的个案，以避免必须插补 
一个多类别变量。对去掉缺失数据的 SPANKING 变量的 
1042个个案，有一个合理的论点可以被提岀，因为因变量上 
有缺失的个案包含很少关于回归系数的信息。然而，包含它 
们并没有损失而且可能还会有一些好处，所以作者把他们全 
部保留了。在模型中所有13个变量被全部纳人插补过程， 
没有经过任何正态化的转换。 

所有虚拟变量的插补值被四舍五入至0或1。 SPANK - 
ING 的插补值被四舍五入至1到4的整数。年龄和收入有 
一些正当范围外的插补值，而这些值被重新编码至上限或下 
限。累进的 logit 模型接着被用来对五个数据组通过标准公 
式进行估计，得到的估计值再合并在一起。 

结果显示在表 6. 3的第2栏中。结果的基本模式是相 
同的，这一栏中 INCOME 的效应是显著的，但 AGE 变得不 
显著了。最引人注目的是，所有系数的标准误都比那些成 
列删除的标准误低很多，最典型的低了约40%。甚至 



112 


缺失数据 


NODOUBT 的标准误也小了 18%，这是非常惊人的，因为超 
过一半的个案在该变量有缺失。对于许多变量较小的标准 
误产生低很多的 f 值。 

累进的 logit 模型强加一个被称为成比例发生比假设以 
限制数据。简单地说，这个词组指对于任何因变量，其二分 
化系数被假设为相同的 。 PROC LOGISTIC 对成比例发生比 
假设为正确的这个零假设，报告一个卡方统计量（分数检 
验）。但由于我们处理五个数据组，因而得到五个卡方： 
32.0, 31.3, 38.0、 36. 4和 35. 2,每一个自由度都为26。使 
用前述宏命令 COMBCHI ， 这五个值被结合以产生一个 0. 25 
的值，暗示模型强加的限制能很好地拟和数据。对于这五 
个数据组中的每一个，作者也计算了所有区域系数都为0的 
零假设下的 Wald 卡方。自由度为3,这些 Wald 卡方值为 
72. 9、 81. 3、 53. 4、 67. 7和 67. 0。结合的 /> 值为 0. 00002。 

在表 6. 3的第3栏中，我们看到运用 Raghuanthan 等人 
(1999) 的多重插补方法的结果，这些结果依靠连续的广义模 
型。对于每一个有缺失数据的变量估计一个回归模型，将该 
变量当做因变量，其他所有变量当做预测量。这些回归模型 
接着被用来产生五组随机插补值。对 EDUC 和 INCOME 而 
言，虽然上下限被嵌人插补过程中，但该模型为普通线性模 
型。 logistic 模型则指明给 NODOUBT 和 N 0 CHILD 。 一个 
多项 logit 模型被用于 SPANKING 。 在插补过程中有20个 
回合，也就是说，对于五个完整数据组中的其中任意一个，直 
到得岀最终结果前，有缺失数据的变量会被连续地插补 
20次。 

同之前一样，累进的 logit 模型被用来估计五个完整数据 
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组中的每一个，并使用公式结合结果。表 6. 3第3栏中的系 
数估计值与那些用多变量正态数据扩增法得到的系数估计 
值相当类似。标准误通常会比数据扩增法的标准误大，虽然 
不像成列删除的标准误那么高。 

令人意外的是，连续回归的成比例发生比假设卡方统计 
量几乎是正态数据扩增法的成比例发生比假设的卡方统计 
量的两倍大。更明确的是，自由度为26,其值为 54. 9、 59. 9、 
66. 7、 85. 4和 59. 0,每一个都有一个小于 0. 001的户值。然 
而，当用宏命令 COMBCHI 结合这些值时，得到的 p 值为 
0. 45。为什么个别的 p 值和结合户值间会有这么大的差异呢？ 
其答案在于，在卡方间的大的方差表示它们中的每一个可能 
都是严重高估的值。结合它们的方程已经考虑到这点了。 

那么正态扩增法和连续回归间卡方的不同又如何解释 
呢？作者怀疑这源自插补 SAPNKING 的多项的 logit 模型没 
有对该变量强加任何顺序的事实。因此，插补值不可能与成 
比例发生比假设相符。当以一个 SPANKING 的线性模型重 
做连续插补时(将插补值四舍五入到整数），成比例发生比假 
设的卡方与那些在正态数据扩增法下获得的卡方更加一致。 
二者择其一，作者在先删除所有 SPANKING 缺失个案后重做 
连续插补。 SPANKING 仍然被指名为类别的，亦即当插补其 
他变量的值时，它被视为一个类别的预测量。而且，成比例发 
生比假设的卡方跟那些由正态数据扩增法产生的卡方相似。 

表 6. 3的最后一栏显示删除 SPANKING 缺失个案后连 
续回归插补的结合结果。有趣的是，两者系数和它们的标准误 
普遍地更接近于数据扩增法。更进一步讲，当我们删除1042个 
SPANKING 有缺失数据的个案时，并没有明显的信息损失。 
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第10节 I 长期的及其他集群数据的 Ml 


到目前为止，我们已假设每一个观察值独立于其他观察 
值，如果数据为每个大总体中的简单随机样本，这即为一个 
合理的假设。然而，许多数据组可能在各观察值间有某种相 
关性。例如，假设我们有一个面版个体数据，对他们而言，连 
续五年每年都测量相同的变量。许多分析面版数据的计算 
机程序需要组织数据，将每一年的测量当做个别的观察值。 
为了将观察值连结在一起，必须有一个变量包含识别号码， 
而识别号码对于来自相同个体的所有观察值都是一样的。 

因此，如果我们有100个连续五年被观察的个体，我们 
会有500个有效的观察值。显而易见，这些观察值不会是独 
立的。如果已讨论过的多重插补方法被直接运用于这500 
个观察值上，不会利用到任何长期的信息。因此，完整数据 
组可能会产生长期相关性的、严重的低估值，特别是如果有 
大量的缺失数据的话。 

如果观察值自然落入自然发生的集群中，也会产生相似 
的问题。假设我们有一个500对已婚者的样本，且对夫妻二 
人都询问相同的问题。如果我们对配偶中任选其一插补缺 
失数据，那么使用配偶间答案的相关性是很重要的。相同的 
也适用于在同一教室内的学生或同一小区内的受访者。 
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一个对于这些数据类别的处理方法是，在一个嵌人观察 
值间相关性的模型下进行多重插补。 Schafer ( 1997) 对集群 
的数据提出了一个多变量线性混合效应模型，并且也开发了 
一个计算机程序 （ PAN ) 以使用数据扩增法执行插补（参见 
http ：// www . stat . psu . edu / 〜 jls /)。 虽然之前承诺会有一个 
Windows 版本，但目前仅以 S^PLUS 套装软件的一个程序库 
来运行。 

有一个更简单的方法，当调查的次数相对较少时，对于 
跟踪数据可以处理得很好。基本的想法是要格式化数据，以 
致对于每一个个体只有一个记录，而且在不同时点对同一变 
量有不同的测量。多重插补接着以我们所考虑过的任何一 
种方法来执行。这就把在任何时点的变量，用来作为任何其 
他时点的变量的预测量的情况考虑进去了。一旦数据被插 
补，数据组就可以被重新格式化，以致对于每一个个体都有 
数笔记录，其对每一个时点都有一笔记录。 
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第11节 | Ml 实例3 _ 


这里有一个比较简单的使用刚讨论过的方法进行长期 
数据多重插补的例子。样本由220名白人女性所组成，年龄 
至少都在60岁以上，在大宾州地区进行髋关节骨折手术 
( Mossey , Knott & Craik , 1990)。在她们岀院后，她们被访 
问三次:2个月后、6个月后及12个月后。下列五个变量在 
三次访问中每一次都会被测量。 

CESD 一个忧郁程度的测量，范围从0至60。 

SRH 自我健康评估，以一个包含4个值的量表测量 
(1 = 不良，4=杰岀的）。 

WALK 如果病患在家不用帮助可以行走，编码为1;反 
之为0。 

ADL 可以不用协助而完成的自理“日常生活活动”的 
数目。 

PAIN 病患所经历的疼痛程度范围，从 0( 没有）到6 
(持续）。 

我们的目的是要以 CESD 作为因变量及其他四个作为 
自变量来估计一个“固定效应”线性回归模型 （ Greene ， 
2000)。模型的形 式为： 


yu = ait ~\~ ^\ocit\ + ••• ~\~n\ +£it 
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其中外 为个人 i 在时点〖的 CESD 值，而^满足线性模型的 
通常假设。这个模型值得注意的是，对于样本中每一个个 
人，都有一个不同的截距&•，从而控制病人们所有稳定的特 
性。这个个人特定的截距也引人了每一个个人的多个回答 
间的相关性。 

为了估计模型，还创造了一个有660个观察值的可用的 
数据组，对每一个时点每一个个人都有一笔观察值。要得到 
OLS 回归估计值有两个相同的计算方法：（1)对于每一个个 
人(小于 1) 包含一个虚拟变量； （2) 执行回归于离差分数上。 
第二个方法在执行多元回归前，先在模型中用每一个变量减 
去(跨三个时点的)个人特定的平均数。 

遗憾的是，该研究有大量的流失，以及各个时点上额外 
的无回答。如果我们删除所有具任何缺失数据的个人时点， 
可用的数据组会从660个个案减少至453个个案。如果我 
们删除在任何时间任何变量有缺失数据的个人，则数据组会 
减少为101个个人(或303个个人时点）。 

表 6. 4显示使用四种方法处理缺失数据的固定效应回 
归结果。[ 15 ]前两栏给岀了从两种成列删除版本得来的系数 
和标准误:（1)删除有任何缺失数据的 个人； （2) 删除有任何 
缺失数据的个人时点。有一个明显的证据显示，忧郁程度被 
自我健康评估所影响，对于行走能力的影响则不足为凭。忧 
郁程度在第1次和第2次调查中明显地比第3次（当大部分 
的病患已完全痊愈）高出许多。很少或没有证据显示 ADL 
和 PAIN 有效应。 

最后两栏给出了根据全部样本，含已在多变量正态模型 
下以数据扩增法插补的缺失数据的分析结果。第3栏的 
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缺失数据 


OIOd VA** *so d vA.*"iy 


数据扩增法， 

以个人 

1. 538(0. 501)** 

一 0. 550(0. 825) 

-0.410(0. 435) 

0. 170(0. 164) 

9. 112(0.615)** 

8. 131(0. 549)** 

660 

数据扩增法， 

以个人时点 

2. 522(0. 617)** 

一 1. 842(0. 960) 

— 0. 385(0. 562) 

0. 305(0. 180) 

6. 900(0. 729)** 

5. 808(0. 642)** 

g 

CO 

成列删除， 

以个人时点 

1. 641(0. 556”* 

-1. 381(0. 761) 

-0. 335(0. 539) 

0. 215(0. 168) 

8. 787(0. 613) * # 

7. 930(0. 520) * # 

CO 

LO 

寸 

成列删除， 

以个人 

2. 341(0. 586)** 

-1.552(0. 771)* 

—0. 676(0. 528) 

0. 031(0. 179) 

8. 004(0. 650)** 

7. 045(0. 579)** 

303 



SRH 

WALK 

ADL 

PAIN 

WAVE 1 

WAVE 2 

N ( 个人时点） 


{ 邮拌雎闵 ) 埏淞担鋇味 W 到瑯诅 较码画 s a — 展閎 f .9 帐 
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结果，对被视为是独立观察值的660个人时点进行插补。因 
此，缺失数据仅通过同一时点的信息来插补。为了进行最后 
一栏的插补，数据被重新组织为220个个人，在每一个时点 
有区分的变量名称。这样一来，每一个有缺失数据的变量根 
据所有三个时点的信息以进行插补。原则上，这应该产生比 
较好的插补，特别是因为一个缺失值可以被不同时点的同一 
变量的测量值所预测。 

事实上，最后一栏所有的估计标准误都比倒数第2栏的 
小一些。它们也比两种成列删除方法中的任一种更小一些。 
另一方面，根据个人次数时点的数据扩增法之标准误则比两 
种成列删除方法稍微大些。无论如何，在这个应用中，多重 
插补并不具有压倒性的优势。从质量上讲，不管使用何种插 
补方法，结论几乎都是相同的。 
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前面几章着重讲述了在缺失数据机制可以忽略的情况 
下能够使用的方法。可忽略性意味着我们不需要对数据发 
生缺失的过程进行模型化。可忽略性重点要求数据是随机 

缺失的-特定变量缺失数据的概率不取决于该变量的 

值(扣除分析中其他变量的作用之后）。 

处理可忽略的缺失数据的基本策略可以简单地总结如 
下: 调整所有缺失和非缺失数据间的可观察到的差异，并且 
假设所有剩余的差异为无系统性的。当然，这是一个熟悉的 
策略。标准回归模型就被设计来做这个——调整可观察到 
的差异并假设所有未观察到的差异为无系统性的。 

遗憾的是，通常我们有足够的理由怀疑数据不是随机缺 
失的。例如，常识告诉我们，曾被逮捕过的人比不曾被逮捕 
过的人更不可能报告他们的逮捕状态，有高收入的人可能不 
会报告他们的收入。在临床药物试验中，变得更差的人比那 
些变得更好的人，更有可能退岀临床药物试验。 

在这些情况下应该怎么办呢？有处理不可忽略的缺失 
数据的模型且想要运用它是很自然的。然而，意料之中的 
是，很少有可用的软件可以估计不可忽略的模型（除了一个 
重要的例外—— Heckman 的选择性误差模型）。其基本问题 
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在于，对数据给定一个模型，只有唯一一个可忽略缺失数据 
机制，但有无限多不同的不可忽略的缺失数据机制。所以很 
难编写计算机程序，以处理即使是这些可能性的一小部分。 
此外，根据选择的模型，答案可能会变化很大。所以选择正 
确的模型非常重要，而该选择需要对所调查的现象有非常精 
准及详尽的知识。更糟糕的是，没有经验方法可以从一个不 
可忽略的模型(或从一个可忽略的模型）中分别出另一个“不 
可忽略的模型”。 

也许你不会极端到 说:“ 不要做那个”，但你可能会这么 
说:“如果你做那个，要特别小心。”此外，如果你没有很多统 
计方面的专业知识，那么请找一个具备统计专业知识的合作 
者。本章针对处理不可忽略的缺失数据的一些方法，为大家 
提供一个简短的导论及概要。 

你所需要明确的第一件事情是，作者已经介绍过的对于 
可忽略的缺失数据的方法——最大似然和多重插补——可 
即刻适用于处理不可忽略的缺失数据。假设选择的模型正 
确，那么这两个方法有如他们在可忽略的设定下的相同的最 
适特性。第二点要记住的是，任何有关不可忽略的缺失数据 
的方法应该要伴随一个敏感性分析。因为根据假设的模型， 
结果可能变化很大，故试验一貌似有理范围的模型并看它们 
是否产生相同的结果是很重要的。 
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缺失数据 


第1节 I 两种模型 

顏1_麟: ■麵麥 鐵2藝 f : 蒙纖翁 : _鑛__纖滅 II 髮鐘 


不管你选择最大似然还是多重插补，处理不可忽略的缺 
失数据有两种截然不同的 方法： 选择模型和形态混合模型。 
对一个缺失数据的单一变量解释最为容易。令 Y 为关注的 
变量且令 P 为一个虚拟变量，如果 Y 被观察到，其值为1，如 
果 Y 缺失，则其值为0。令 / O % 尺)为这两个变量的联合概 
率密度函数。选择一个模型意味着对 /( Y ， 尺)选择某些明 
确的指定。 

可以使用两种不同的方法因子化联合 P . d . f(Little & 
Rubin ， 1987)。在选择模型中我们 使用： 

/(Y, R) = Pv(R I Y)/(Y) 

其中 / OO 为 Y 的边际密度，且 PrCRl Y ) 为给定某 Y 值下的 
P 的条件式概率。用文字表示，如同没有缺失数据一样我们 
首先对 Y 建立模型。例如，我们可以假设 /( Y ) 为有着平均 
数"和方差 a 2 的正态分布，且 Pr CR | Y ) 为： 

, fpi ifY>0 

Pr(R = 1 I Y) = ^ 

[p2 ifY^O 

这个模型被确认且可以被 ML 所估计。对应形态混合模型 
的备选的联合 P . d . f 因子化公 式为： 
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f(Y ， R) = f(Y I R)Pr(R) 

其中/( V ， 尺) 是条件为是否缺失的 Y 的密度。例如，我们可 
以假设 Pr (尺）就是某个固定的 仏且是 有着方差为^和当 
尺=1时平均数为而当尺= 0 平均数为^的正态分布。 

遗憾的是，这个模型不被确认，因此若对参数没有更进一步 
的限制则无法估计。 

形态混合模型似乎是一个思考缺失数据机制的不自然 
的方法。而且非常典型，我们假设数据的值（在这个例子中 
为 Y ) 是预先设定的。那么，根据数据收集程序， Y 的值可能 
对于我们是否确实获得想要的信息有一些影响。这样的想 
法与选择模型一致。另一方面，形态混合模型似乎倒转了因 
果关系的方向，允许缺失性影响所关注变量的分布。当然， 

关于因果关系方向的条件式概率是不可知的，其结果是，形 
态混合模型有时候比理论上更吸引人的选择模型更容易处 
理，特别是对于多重插补。下面作者将会给岀选择模型和形 
态混合模型的一些例子。 
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第 2 节 I Heckman 的样本选择 

误差模型 


Heckman(1976) 的样本选择误差模型为缺失数据选择 
模型的经典例子。该模型设计用于因变量在一个线性回归 
模型中有一些个案有缺失、但另一些个案没有缺失的情况。 
一个经常使用的例子为预测女性工资的回归，而对于不在劳 
动力市场中的女性，其工资数据必然是缺失的。很自然地， 
我们会假定如果她们的工资很低的话，她们就不可能进入劳 
动力市场。因此，数据并不是随机缺失。 

Heckman 以潜变量公式化其模型，但作者将用一个更直 
接的设定来处理。对于一个 n 个个案的样本（（=1，…， W ， 
令 Y 为一方差为 ex 2 的正态分布变量，且其平均 数为： 

E(Yi) = , [7.1] 

其中，兄为自变量(包含一个截距为 1) 的栏向量 M ， 而 p 为 
一个系数的列向量。目的是要估计/?。如果所有的 y , •都被 
观察到了，我们可以通过普通最小二乘回归得到 p 的 MM 古 
计值。然而，有些 K 是缺失的。 K 上缺失数据的概率被假 
设服从 probit 模型： 

Pr ( i?t = 0 = ^( ao a\Yi 02X() ^ [7.2] 
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其中少 （•） 是一个标准正态变量的累进分布。除非 m = 0, 
否则数据不是随机缺失的，因为缺失的概率取决于 Y 。 

这个模型被确认（即使没有兄或当不进入该 probit 
方程时），且可以被最大似然所估计。对于一个有 Y 的观察 
值，其似然为： 

Pr(R t = 1 | w ， Xi)f(yi I xi) 

=[1 — <P(ao + ai yi + ai Xi )^\( p ^ 1 ， [7. 3] 


其中 〆 •） 为一标准正态变量的密度函数。对于一个有 Y 缺 
失的观察值，其似 然为： 



Pr(Ri = 0 I y ， Xi)f(y | xi)dy 



ao + (aij3~\- a2 )j0i 
^/T"+ ala 2. 


[7.4] 


方程 7. 4 服从普遍原则，即有缺失数据的观察值，其似然可 
以通过求所有缺失数据可能值的似然之积分而得到。使用 
标准数值的方法，整个样本的似然值很容易被最大化从而作 
岀估计。 

遗憾的是，这个方法所产生的估计值对于 Y 为正态分布 
这个假设过度敏感。如果 Y 事实上有一个偏的分布，在 
Heckman 模型下得到的 ML 估计值会严重偏误，或许甚至比 
从一可忽略的缺失数据模型下所获得的估计值偏误更加严 
重 (Little & Rubin , 1987)。 

Heckman 也提出一个两步骤估计量，其对正态性的偏离 
不敏感，本质上更加容易计算，因此比 ML 更加受欢迎。然 
而，该两步骤方法有其自身的限制。 
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简而言之，两步骤 如下： 

(1) 估计一个缺失数据指标尺的 probit 回归于 X 变 

量上； * 

(2) 对于 Y 有数据呈现的个案，估计一个最小二乘线性 
回归 Y 于 X 另加一个转换来自 probit 回归中的预测值之 
变量。[ 17 ] 

不像 ML 方法，如果没有 X 变量，则两步骤程序不可行。 
此外，如果 X 变量在 proibt 回归和线性回归中都相同，参数 
只能被勉强地确定。为了得到合理稳定.的估计值，在 probit 
回归中的 X 变量必须从线性模型中排除。当然，能够令人信 
服地证明诸如此类的排除限制是很罕见的。甚至当所有条 
件都符合时，两步骤估计量在真实情况下也有可能表现得比 
较拙劣 (Stolzenberg Relies ， 1990, 1997)。 

在这些样本选择方法对于假设的违反有明显敏感性的 
前提下，我们应该如何继续做一个敏感性分析呢？对于 ML 
估计量，关键在于假设为因变量 Y 的正态性。所以一个自然 
的方法是拟和假设不同分布的不同模型。偏的分布，如 
Weibull 或 gamma 可能会是最有用的，因为对 ML 来说，正态 
分布的对称性最为重要。虽然在方程 7. 4中，积分可能没有 
一个合适的形式且可能需要数值的积分法，但是对于其他备 
选分布， ML 估计应该是可行的。对于两步骤估计量，关键假 
设是从预测的线性回归中排除某些 X 变量。一个敏感性分 
析可能探索对两个方程选择不同组 X 变量的结果。 
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第3节 | 形态混合模型的 ML 估计 


形态混合模型很难被识别。假设我们有两个变量 x 和 
V %有四个观察到的缺失 形态： 

(1) X 和 Y 两者都被观 察到； 

(2) X 被观察到， Y 缺失； 

(3) Y 被观察到， X 缺失； 

(4) X 和 Y 两者都缺失。 

根据这些形态中哪一种被观察到，令尺=1，2, 3或4。 
对于这些数据的形态混合模型有一个普遍 形式： 

/(X, y, R) = /(Y, X I R)Pt(R) 


为了使模型更加明确，我们可以假设 Pi •(幻由 Pi ， P 2, 
灼和/ >4该组值所确定。接着，我们可以假设 f ( Y , X | 尺)为 
一个有着通常参数 px ， yy ， trx ， w ， axv 的二变量正态分布。 
然而，我们确定这些参数中的每一个对于每一个值是不同 
的。问题是，当 X 被观察到而 Y 没有被观察到时，没有信息 
可以估计 Y 的平均数和标准差或 X 和 Y 的协方差。同样 
地，当 Y 被观察到而 X 没有被观察到时，没有信息可以估计 
X 的平均数和标准差或 X 和 Y 的协方差。如果两个变量都 
缺失，我们就没有任何信息。 
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为了继续下去，我们必须强加一些限制在这四组参数 
上。令心> 为形态〖的参数组。一个简单但非常有限制的条 
件是，假设没⑴=^ (2) =# 3) =分 4) ，其相当于 MCAR 。 既然 
那样，形态混合模型的 ML 估计等同于第3章讨论过的、有 
可忽略的缺失数据的、正态模型的 ML 估计。 Little (1993, 
1994) 提出了对其他不对应但可忽略的缺失数据产生确认的 
模型的限制种类。这里有一个例子。令味代表在^为形 
态 z ’ 下， Y 的条件式概率。 Little 称之为完全个案缺失变量 
限制： 

/)(2) _ A (l) 

^Y\X ~ ^Y\X 

z , C 3) _ nil) 

U X\Y — U X\Y 

e U) = 

对于两个存在一个变量缺失的形态，在给定该观察到的变量 
下，该缺失变量的条件式概率等同于完整个案形态相对应的 
分布。对于有两个变量缺失的形态，所有参数被假设与在完 
整个案形态中的那些参数相同。这个模型被确认并可以以 
非迭代的方法得到 ml 估计值。一旦所有这些参数都能获 
得，就可以很容易地结合它们以得到 X 和 Y 的边际分布的估 
计值。 
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第4节 | 形态混合模型的多重插补 


形态混合模型的 ML 在目前仍是相当难以理解的。 
更加实际且有用得多的是组合形态混合模型与多重插补 
( Rubin , 1987)。最简单的策略是，首先在一个可忽略的模型 
下产生插补，接着以比如说一个线性来转换修正插补值。之 
后就可以很容易通过在线性转换中用不同的常数重复该过 
程来获得一个敏感性分析。 

这里有一个简单的例子。再一次假设我们有两个变量 
X 和 Y ， 但只有两种缺失数据形态：（1)完整个案， （2 )y 缺失。 
我们假设在每一种形态内， X 和 Y 有一个二变量正态分布。 
我们也相信有缺失的个案倾向于有较高的 Y 值，所以我们假 
设对两种形态所有参数都是相同的，除了义 2) = ,其中 
c 为某个大于1的常数。多重插补接着产生在一个可忽略的 
缺失数据机制下的 Y 的插补值，然后将所有插补值乘以 c 。 
当然，要保证正常运行，我们要选一个 c 值，且该选择可以是 
随心所欲的。敏感性分析由对于数个不同 c 值，重插补数据 
及重估计模型所组成。 [18] 

现在，让我们将这个变成一个实际的例子。对于大专院 
校数据，有98所大专院校在因变量 GRADRAT 上有缺失数 
据。假设那些没有报告毕业率的大专院校，相对于那些有报 



告毕业率的大专院校，有较低的毕业率，是貌似合理的。我 
们在第5章叙述过的、对多个插补数据的插补毕业率的平均 
数比没有缺失数据的大专院校的平均毕业率低了约10个百 
分点这个事实，支持这项假设。然而，这个差异完全来源于 
预测变量的差异，而且这并不构成显示数据不是随机缺失的 
证据。 


表 7.1 毕业率回归于数个变置上的不同形态混合模型 


变量 

100% 

90% 

SO% 

70% 

60% 

CSAT 

0. 067 

0. 069 

0.071 

0. 072 

0.071 

LENROLL 

2. 039 

2. 062 

2.077 

2.398 

2.641 

PRIVATE 

12.716 

12. 542 

11. 908 

12. 675 

12.522 

STUFAC 

-0.217 

-0. 142 

— 0. 116 

-0. 216 

一 0. 113 

RMBRD 

2.383 

2. 264 

2.738 

2.513 

2. 464 


然而，假设在缺失及没有缺失个案间，毕业率的差异甚 
至会更大。毫无疑问，修正插补毕业率以使它们等于在可忽 
略性假设下被插补的指明的百分比。表 7.1 给岀了插补值 
为原始值100%、90%、80%、70%和60%的结果。对每一 
个回归，会产生全新的插补。因此，横跨各栏的变化是由插 
补过程的随机性导致的。一般而言，系数是相当稳定的，暗 
示对可忽略性的偏离对结论不会有很大的影响 。 STUFAC 
系数变化最大，但在所有例子中它在统计上根本不显著。 
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I 缺失数据 


在处理缺失数据的传统方法中，成列删除的问题最少。 
虽然成列删除可能会丢弃一大部分的数据，但除非数据不是 
完全随机缺失的，不然没有理由期望有误差。此外，其标准 
误也应该是真实标准误的适当的估计值。更进一步讲，如果 
你估计一个线性回归模型，对于一个自变量有缺失数据且缺 
失概率取决于该变量的值的情况下，成列删除是相当稳定 
的。如果你估计一个 logistic 回归模型，成列删除可以容忍 
因变量的非随机缺失或自变量的非随机缺失（但两者不能同 
时出现）。 

相比之下，所有其他处理缺失数据的传统方法会在标准 
误估计值中引入误差，而且当数据为完全随机缺失时许多传 
统方法(如虚拟变量调整）仍会产生有偏误的参数估计值。 
所以成列删除是一个较为安全的方法。 

如果在成列删除中必须被丢弃的数据量是无法容忍的， 
则有两种可备选的方法——最大似然法和多重插补。这两 
种方法假设数据随机缺失，这是一个较完全随机缺失更令人 
欣赏的较弱的假设。在颇为普遍的条件下，这些方法产生近 
似反映无偏误的、有效的估计值。它们也产生良好的标准误 
估计值和检验统计量。但不足的是，它们较大多传统方法更 
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难以执行，而且每次执行多元回归，它都会带来不同的结果。 

如果目标是要估计一个属于由 LISREL 或相似软件包 
所估计的模型种类的线性模型，则最大似然可能是首选方 
法。当前至少有四种统计套装软件可以完成这个任务，其中 
最知名的为 Amos。 

如果你想要估计任何类型的非线性模型，则多重插补是 
正确的选择，有许多不同的方法可以执行多重插补。最广泛 
使用的方法是假设目标模型中的变量有一多变量正态分布。 
通过涉及一个从数据值和参数随机抽取的重复回归的贝叶 
斯估计法来完成插补。当前有数个可用的套装软件可以完 
成这个任务。 

其他做较少限制分布假设的多重插补方法目前正在发 
展中，但它们尚未达到理论上或计算上精细的改进水平，从 
而供正常化普遍使用。 

也可以在数据不是随机缺失的假设下执行最大似然或 
多重插补，但要得到好的结果是很难处理的。这些方法对于 
缺失机制或有缺失数据的变量之分布的假设非常敏感。此 
外，没有方法检验这些假设。因此，最重要的必要条件是良 
好的关于缺失数据的产生机制的先验知识，且估计不可忽略 
的模型皆应伴随着一敏感性分析。 



注释 


[ 1 ] 证明很简单。我们想要估计，给定一预测变董的向量的X下， Y 的条件 
式分布 /(YIX)。 如果所有变量都被观察到令 A =1;否则， A = 0。成 
列删除相当于估计 /(Y 丨X， A = 1)。目标是要证明这个函数与 
/(YIX) —样。从条件式概率的定义而来，我们 得到： 
fry I v a = i) = /(Y， Xt A = 1) 

/(y 丨 X ， A - /(X， A = 1) 

= Pr(A = 1 I X ) f(Y I X)/(X) 

Pr(A = 1 I X)/(X) 

假设 Pr(A = 1 I Y, X) = Pr(A =1|X), 也就是有数据呈现于所有变 
量上的概率不取决于 y， 但可能取决于X中的任何变 M。 接着： 

/(Y I X, A= 1) =/(Y I X) 

注意，这个结果可用于任何回归程序，不仅仅是用线性回归而已。 

[2] 甚至当缺失数据的概率取决于 x 和 y 两者时，有些情况下成列删除是 
没有问题的。令〆 Y, X)为一回归模型中一个或多个变董缺失数据的 
概率，以二分的因变量和一个自变量X的向量所表示的函数。如果该 
概率可以被因子化为 p ( y , x ) = /(y)g(y)， 则使用成列删除的 logis¬ 
tic 回归斜率为真实系数的一致的估计值 (Glynn, 1985)。 

[3] Gla SS er(1964) 导出相当容易执行的方程，但是只当自变量和缺失数据 
形态在样本和样本间为“固定”时才有效，而这对于实际应用是一个不 
太可能的条件。 Van Praag, Dijkstra 和 Van Vel ze n(1985) 的方程更普 
遍地适用，但需要超出协方差矩阵中给定的 信息: 高阶动差和所有四个 
变量组的可得个案数目。 

[4] 虽然当数据为确实缺失时虚拟变量调整方法是明显不能接受的，但它 
可能仍适用于未观察到的数据仅仅为不存在的个案的情况。例如，已 
婚受访者可能被要求评价其婚姻的质量，但该问题对于未婚的受访者 
就没有意义。假定我们有一个对已婚伴侣的线性方程及另一个对未婚 
伴侣的方程。已婚(伴侣之)方程等同于未婚(伴侣之)方程除了它具有 
(a) —个对应婚姻品质对因变量效应的项目以及 （b) —个不同的截距。 
证明在这个情况下虚拟变 M 调整方法产生最适的估计值是容易的。 

[ 5 ] 当使用条件式平均数插补时， Schafer 和 Schenker(2000) 提出了一个 
(可)得到一致的标准误估计值(的方法)。他们宣 称:在 适当的条件下，他 
们的方法可以产生更精确的估计值，且较多重插补需要较少的运算努力。 
[6] 在多变量正态假设下的最大似然，对于任何具有限四阶动差的多变量分 
布，产生平均数和协方差矩阵的一致的估计值 (Little & Smith, 1987)。 
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[7] 这个变量为原始数据组中两个变量“房间支出”和“伙食变量”的总和。 

[ 8 ] 对于二步骤方法，也可使用 Brown 和 Arminger( 1995) 叙述过的“三明 
治”方程得到标准误估计值。 

[9] 在二变量正态性假设下估计的标准误，对于这个例子是适当的，因为数 
据从一个二变量正态分布抽取而来。方 程为： 

1 — r 2 

S. E. (r) = 

y/n 

虽然该样本相关系数不是正态分布的，但在这个例子中大样本数目应 
该确保密切近似反映正态性。因此，这些标准误可以适当地被用来建 
构置信区间。 • 

[10] 对于数据扩增法，标准的不提供信息的先验分布 （ Schafer ，1997) 为 

Jeffreys 先验分布，写做丨| - 其中 S 为协方差矩阵，/>为变 

量数目。 

[11] 一个得到如此过度分散的分布的方法为使用一个自举的方法。例如， 
从原始数据组中有替代地取五个不同随机样本，并计算这些样本中的 
每一个 EM 估计值。 EM 估计值接着可被用来作为五个平行系列中每 
一个的起始值。 

[12] 一个执行这个过程的简单的方法是，将（0, 1) 区间取比例于婚姻状态 
的每一个类别的概率的长度，分成五个次区间。对于随机数字落入的 
次区间指派相对应的婚姻状态。 

[13] 事实上，自由度等于 L 的阶，通常但不总是为 r 。 

[14] 9个地区分类如下 :东部 (新英格兰、中亚特兰大），566个 个案； 中部(东 
北中央、西南中央 ），715 个个案；南部（南亚特兰大、东南中央、西南中 
央），1095个 个案; 西部(山区、太平洋），616个个案。 

[15] 回归分析以 SAS 的 GLM 程序执行，使用 ABSORB 述句来处理固定效应。 

[16] 产生10个数据组，每组30次反复。在插补后，插补值如有必要则被重 
新编码以保留原始变量可允许的值。 

[17] 确切地说，额外的变量为 AUx ,)， 其中 a 为从 probit 模型估计系数的行 
向量。函数 A (*)， 为反 Mills 函数，被定义为扒 z )/ 步 ( z ), 其中 Az ) 为密 
度函数而少(幻为累计分布函数，这两者都用于一个标准正态变量。 

[18] 在 Rubin (1987) 考虑的模型中，参数的条件式先验分布被指明缺失数 
据形态，在给定参数于完整数据形态的条件下。这里的实例中，我仅假 
设缺失个案的条件式平均数为完整个案的平均数的某个倍数。此外， 
缺失个案的条件式方差可以被允许大于那些完整个案的(方差）以弥补 
较大的不确定性。 
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aspect 

面向 

autocorrelation 

自相关 

available case analysivS 

可得个案分析 

Bayesian bootstrap method 

贝叶斯自举法 

Bayesian posterior distribution 

贝叶斯后验分布 

casewise deletion 

个案删除 

categorical independent variables 

类别自变量 

cell 

单元格 

censor 

删截 

chi-square 

卡方 

column vector 

栏向量 

complete-case missing-rariable restrictions 

完全个来缺失变量限制 

conditional distribution 

条件式分布 

conditional mean 

条件平均数 

conditional mean impution 

条件式平均数插补 

confidence interval 

置信区间 

contingency table 

列联表 

correlation 

相关性 

covariance 

协方差 

covariate 

协变量 

Cox regression 

Cox 回归 

Cox proportional hazards model 

Cox 比例风险模型 

cross-product ratio 

交叉相乘比 

cumulative logit model 

累进的 logit 模型 

cut-off point 

截略点 

data 

数据 

Data Augmentation( DA) 

数据扩增法 

default 

默认值 

denominator degrees of freedom(d. d. f) 

分母自由度 

departure 

偏离 

dependence 

依赖性/相关性 
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dependent variable 
diagnostic statistics 
dichotomy 
dispersion 
disporportionate stratified sampling 

- i..( 

distribution 

dummy variable adjustment 
effect 
efficient 








5 

error 

estimate 











:_讓靠 


estimator 

Expectation- Ma xi mization (EM) 
exploratory analysis 
factor analysis 


factor loadings 
failure-time regression 
fit 


fraction missing information 
frequency 

generalized linear model 

Heckman’s selectivity bias model 

heteroscedasticity 

higer-order moments 

homoscedasticity 

Hot deck method 

imputation 

independent variable 

intended model 

iteration 

joint distribution 
lags 

latent variable 


因变量 
诊断统计量 



二分法 

分散 

非比例分层化抽样 
分布 


虚拟变量调整 


效应 
有效的 
误差 
估计值 
估计量 
期望最大化 
探索分析 
因子分析 
因子载荷 
失效时间回归 
拟合 

缺失信息比 
频数 

广义线性模型 

Heckman 的选择性误差模型 

异方差性 

■ - 

高阶动差 
同方差性 


热卡方法 
插补 


自变量 


预设模型 
迭代 

联合分布 


滞后值 


潜变量 
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least square 

最小二乘 

logistic regression 

logistic 回归 

log-linear analysis 

对数线性分析 

listwise deletion 

成列删除 

marginal distribution 

* 

边际分布 

marginal mean imputation 

边际平均数插补 

Markov Chain Monte Carlo(MCMC) 

马尔可夫链蒙特卡尔 

Maximum Likelihood (ML) 

最大似然 

mean substitution 

平均值替换 

metric 

度量标准 

Missing At Random(MAR) 

随机缺失的 

Missing Completely At Random(MCAR) 

完全随机缺失的 

missing data mechanism 

缺失数据机制 

missing data-generating mechanism 

缺失数据产生机制 

missing indicator method 

缺失指标方法 

monotonic 

单调的 

multinomial 

多项的/多峰的 

Multiple Imputation(MI) 

多重插补 

Multiple Imputation, by Chained Equations 

(MICE) 

基于链式方程的多重插补 

normal distribution 

正态分布 

null hypothesis 

零假设 

observed at random 

随机观察的 

odds 

比例 

overall likelihood 

总体似然 

overidentified model 

过度识别模型 

normal distribution 

正态分布 

p value 

P 值 

pairwise deletion 

成对删除 

panel study 

面板研究 

patterns 

形态 

poisson regression 

泊松回归 

population 

总体 
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positive definite 
predictive mean matching 
predictor 
probability 

probability density function(p. d. f.) 
propensity score 
proportional odds assumption 
portion 

prior distribution 

ratio 

residual 

robust 

Root Mean Squared Error(RMSE) 

row rector 

sample size 

sampling variability 

simulation study 

simultaneous equations 

skow(、rl 

skewness 

standard deviation 

standard error 

stratified sampling 

structural equation modeling 

summary statistics 

systematic error 

t statistic 

valid 

validity 

variance 


正定的 

预测均数匹配 
预测 ( 量） 

概率 

概率密度函数 
倾向评分 
成比例发生比假设 
比率 

先验分布 
比、比率 
残差 
稳健的 
均方根差 
列向量 
样本数 
抽样变异 
模拟研究 
联立方程 
偏 ( 态)的 
偏度 
标准差 
标准误 
分层化抽样 
结构方程模型 
描述性统计 
系统性误差 
t 统计量 
有效的 
效度 
方差 
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